Exato. Isso na verdade me sugere um outro critério de ordenação do resultado: tamanho do nome/distância de Levenshtein. Seria um critério aproximado mas que ajudaria o revisor a começar direto com casos que raramente seriam descartados e a deixar pro final os difíceis de decidir. Postei no fórum o resultado de fazer assim, pra poder comparar facilmente.
Vou tentar integrar o script com este outro arquivo pra gerar na saída o nome ao invés do código da cidade. Depois, dá até pra dividir a saída por cidade, colocar tudo num repositório, e só ir controlando no wiki quais arquivos já foram revisados (ou talvez até ir passando de um diretório para outro no repositório). Minha impressão até o momento: a comparação dos cadastros é bastante útil, mas não dá pra confiar no CNEFE sempre. 2014-03-23 16:01 GMT-03:00 Hermann Peifer <pei...@gmx.eu>: > > Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos > resultados, mas vou fazer logo. > > A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos tem > ambos uma distância de 1: > > 'RUA A' <-> 'RUA B' > 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA' > > No primeiro exemplo, um dos dois nomes seria completamente errado e no > segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar > no assunto. > > Abçs, Hermann > > PS: > > Agora tambem coloquei os nomes dos municípios na minha pasta: > MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE > 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab > http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC > > Minha NORMALIZACAO does nomes das ruas do OSM era asim: > > $ cat scripts/translit.awk > > { > $0 = toupper($0) > gsub(/[ÀÁÂÃĪ]/, "A") > gsub(/Ç/, "C") > gsub(/[ÈÉÊ]/, "E") > gsub(/Í/, "I") > gsub(/Ñ/, "N") > gsub(/[ÓÔÕÖ°º]/, "O") > gsub(/[ÚÜ]/, "U") > gsub(/ß/, "SS") > > print > > } > > On 2014-03-23 18:31, Fernando Trebien wrote: >> >> Tentei, acho que os resultados são interessantes. Por isso, acabei >> postando no fórum: >> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015 >> >> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <pei...@gmx.eu>: >>> >>> >>> Olá, >>> >>> Fiz algumas pesquisas provisórias, pegando os dados do RS: >>> >>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre >>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o >>> anexo. >>> >>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no >>> ubuntu.com: >>> >>> 1) municipio_cep_RUA_CNEFE.txt >>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE >>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação >>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs >>> >>> >>> 2) municipio_rua_RUA_OSM.txt >>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM >>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação >>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9 >>> >>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para >>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz >>> dessa forma para evitar de mexer com as duas listas). >>> >>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a >>> distância Levenshtein, ou algo semelhante. >>> >>> Alguem quer tentar ? >>> >>> Abçs, Hermann >>> >>> >>> Anexo >>> >>> Casos Nome >>> 215 RUA SEM DENOMINACAO >>> 163 RUA SEM NOME >>> 91 RUA SEM NOME 2 >>> 88 BECO SEM NOME >>> 84 RUA SEM NOME 1 >>> 77 BECO SEM DENOMINACAO >>> 68 RUA SEM NOME 3 >>> 67 ESTRADA SEM DENOMINACAO >>> 66 RUA SEM DENOMINACAO 2 >>> 60 TRAVESSA SEM NOME >>> 57 RUA SEM DENOMINACAO 1 >>> 57 ESTRADA SEM NOME >>> 54 RUA SEM NOME 4 >>> 45 RUA SEM DENOMINACAO 3 >>> 43 RUA SEM NOME 5 >>> 38 BECO SEM NOME 2 >>> 37 RUA SEM DENOMINACAO 4 >>> 36 TRAVESSA SEM DENOMINACAO >>> 36 BECO SEM NOME 1 >>> 33 RUA SEM NOME 6 >>> 28 ESTRADA SEM NOME 2 >>> 27 ESTRADA SEM NOME 1 >>> 26 RUA SEM DENOMINACAO 5 >>> 25 RUA CASEMIRO DE ABREU >>> 23 BECO SEM NOME 3 >>> 22 RUA SEM NOME 8 >>> 22 RUA SEM NOME 7 >>> 21 BECO SEM NOME 4 >>> 20 ESTRADA SEM DENOMINACAO 2 >>> >>> >>> >>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote: >>>> >>>> >>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien >>>> <fernando.treb...@gmail.com>: >>>>> >>>>> >>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases >>>>> tendo menos falsas diferenças. >>>>> >>>> >>>> Eh.... a qualidade dos dados está realmente bastante questionável.... >>>> >>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as >>>> pérolas que encontrei: >>>> >>>> RUA SEMINTERIO >>>> RUA DO CEMINTERIO >>>> RUA CEMINTERIO >>>> >>> >>> >>> >>> >>> >>> _______________________________________________ >>> Talk-br mailing list >>> Talk-br@openstreetmap.org >>> https://lists.openstreetmap.org/listinfo/talk-br >> >> >> >> > > > > _______________________________________________ > Talk-br mailing list > Talk-br@openstreetmap.org > https://lists.openstreetmap.org/listinfo/talk-br -- Fernando Trebien +55 (51) 9962-5409 "The speed of computer chips doubles every 18 months." (Moore's law) "The speed of software halves every 18 months." (Gates' law) _______________________________________________ Talk-br mailing list Talk-br@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-br