Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos resultados, mas vou fazer logo.

A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos tem ambos uma distância de 1:

'RUA A' <-> 'RUA B'
'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'

No primeiro exemplo, um dos dois nomes seria completamente errado e no segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar no assunto.

Abçs, Hermann

PS:

Agora tambem coloquei os nomes dos municípios na minha pasta:
MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC

Minha NORMALIZACAO does nomes das ruas do OSM era asim:

$ cat scripts/translit.awk

{
        $0 = toupper($0)
        gsub(/[ÀÁÂÃĪ]/, "A")
        gsub(/Ç/, "C")
        gsub(/[ÈÉÊ]/, "E")
        gsub(/Í/, "I")
        gsub(/Ñ/, "N")
        gsub(/[ÓÔÕÖ°º]/, "O")
        gsub(/[ÚÜ]/, "U")
        gsub(/ß/, "SS")

        print
}

On 2014-03-23 18:31, Fernando Trebien wrote:
Tentei, acho que os resultados são interessantes. Por isso, acabei
postando no fórum:
http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015

2014-03-23 12:01 GMT-03:00 Hermann Peifer <pei...@gmx.eu>:

Olá,

Fiz algumas pesquisas provisórias, pegando os dados do RS:

O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.

Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
ubuntu.com:

1) municipio_cep_RUA_CNEFE.txt
Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs


2) municipio_rua_RUA_OSM.txt
Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9

Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
dessa forma para evitar de mexer com as duas listas).

Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
distância Levenshtein, ou algo semelhante.

Alguem quer tentar ?

Abçs, Hermann


Anexo

   Casos Nome
     215 RUA SEM DENOMINACAO
     163 RUA SEM NOME
      91 RUA SEM NOME 2
      88 BECO SEM NOME
      84 RUA SEM NOME 1
      77 BECO SEM DENOMINACAO
      68 RUA SEM NOME 3
      67 ESTRADA SEM DENOMINACAO
      66 RUA SEM DENOMINACAO 2
      60 TRAVESSA SEM NOME
      57 RUA SEM DENOMINACAO 1
      57 ESTRADA SEM NOME
      54 RUA SEM NOME 4
      45 RUA SEM DENOMINACAO 3
      43 RUA SEM NOME 5
      38 BECO SEM NOME 2
      37 RUA SEM DENOMINACAO 4
      36 TRAVESSA SEM DENOMINACAO
      36 BECO SEM NOME 1
      33 RUA SEM NOME 6
      28 ESTRADA SEM NOME 2
      27 ESTRADA SEM NOME 1
      26 RUA SEM DENOMINACAO 5
      25 RUA CASEMIRO DE ABREU
      23 BECO SEM NOME 3
      22 RUA SEM NOME 8
      22 RUA SEM NOME 7
      21 BECO SEM NOME 4
      20 ESTRADA SEM DENOMINACAO 2



On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:

2014-03-23 14:53 GMT+02:00 Fernando Trebien <fernando.treb...@gmail.com>:

Pelo que entendi é no processamento, pra poder comparar as duas bases
tendo menos falsas diferenças.


Eh.... a qualidade dos dados está realmente bastante questionável....

Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
pérolas que encontrei:

RUA SEMINTERIO
RUA DO CEMINTERIO
RUA CEMINTERIO






_______________________________________________
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br






_______________________________________________
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br

Responder a