Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
resultados, mas vou fazer logo.
A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
tem ambos uma distância de 1:
'RUA A' <-> 'RUA B'
'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
No primeiro exemplo, um dos dois nomes seria completamente errado e no
segundo exemplo falta só uma letra no meio de um nome comprido. Vou
pensar no assunto.
Abçs, Hermann
PS:
Agora tambem coloquei os nomes dos municípios na minha pasta:
MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
Minha NORMALIZACAO does nomes das ruas do OSM era asim:
$ cat scripts/translit.awk
{
$0 = toupper($0)
gsub(/[ÀÁÂÃĪ]/, "A")
gsub(/Ç/, "C")
gsub(/[ÈÉÊ]/, "E")
gsub(/Í/, "I")
gsub(/Ñ/, "N")
gsub(/[ÓÔÕÖ°º]/, "O")
gsub(/[ÚÜ]/, "U")
gsub(/ß/, "SS")
print
}
On 2014-03-23 18:31, Fernando Trebien wrote:
Tentei, acho que os resultados são interessantes. Por isso, acabei
postando no fórum:
http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
2014-03-23 12:01 GMT-03:00 Hermann Peifer <pei...@gmx.eu>:
Olá,
Fiz algumas pesquisas provisórias, pegando os dados do RS:
O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.
Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
ubuntu.com:
1) municipio_cep_RUA_CNEFE.txt
Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
2) municipio_rua_RUA_OSM.txt
Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
dessa forma para evitar de mexer com as duas listas).
Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
distância Levenshtein, ou algo semelhante.
Alguem quer tentar ?
Abçs, Hermann
Anexo
Casos Nome
215 RUA SEM DENOMINACAO
163 RUA SEM NOME
91 RUA SEM NOME 2
88 BECO SEM NOME
84 RUA SEM NOME 1
77 BECO SEM DENOMINACAO
68 RUA SEM NOME 3
67 ESTRADA SEM DENOMINACAO
66 RUA SEM DENOMINACAO 2
60 TRAVESSA SEM NOME
57 RUA SEM DENOMINACAO 1
57 ESTRADA SEM NOME
54 RUA SEM NOME 4
45 RUA SEM DENOMINACAO 3
43 RUA SEM NOME 5
38 BECO SEM NOME 2
37 RUA SEM DENOMINACAO 4
36 TRAVESSA SEM DENOMINACAO
36 BECO SEM NOME 1
33 RUA SEM NOME 6
28 ESTRADA SEM NOME 2
27 ESTRADA SEM NOME 1
26 RUA SEM DENOMINACAO 5
25 RUA CASEMIRO DE ABREU
23 BECO SEM NOME 3
22 RUA SEM NOME 8
22 RUA SEM NOME 7
21 BECO SEM NOME 4
20 ESTRADA SEM DENOMINACAO 2
On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
2014-03-23 14:53 GMT+02:00 Fernando Trebien <fernando.treb...@gmail.com>:
Pelo que entendi é no processamento, pra poder comparar as duas bases
tendo menos falsas diferenças.
Eh.... a qualidade dos dados está realmente bastante questionável....
Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
pérolas que encontrei:
RUA SEMINTERIO
RUA DO CEMINTERIO
RUA CEMINTERIO
_______________________________________________
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br
_______________________________________________
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br