Exato. Isso na verdade me sugere um outro critério de ordenação do
resultado: tamanho do nome/distância de Levenshtein. Seria um critério
aproximado mas que ajudaria o revisor a começar direto com casos que
raramente seriam descartados e a deixar pro final os difíceis de
decidir. Postei no fórum o resultado de fazer assim, pra poder
comparar facilmente.

Vou tentar integrar o script com este outro arquivo pra gerar na saída
o nome ao invés do código da cidade. Depois, dá até pra dividir a
saída por cidade, colocar tudo num repositório, e só ir controlando no
wiki quais arquivos já foram revisados (ou talvez até ir passando de
um diretório para outro no repositório).

Minha impressão até o momento: a comparação dos cadastros é bastante
útil, mas não dá pra confiar no CNEFE sempre.

2014-03-23 16:01 GMT-03:00 Hermann Peifer <pei...@gmx.eu>:
>
> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
> resultados, mas vou fazer logo.
>
> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos tem
> ambos uma distância de 1:
>
> 'RUA A' <-> 'RUA B'
> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
>
> No primeiro exemplo, um dos dois nomes seria completamente errado e no
> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
> no assunto.
>
> Abçs, Hermann
>
> PS:
>
> Agora tambem coloquei os nomes dos municípios na minha pasta:
> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
>
> Minha NORMALIZACAO does nomes das ruas do OSM era asim:
>
> $ cat scripts/translit.awk
>
> {
>         $0 = toupper($0)
>         gsub(/[ÀÁÂÃĪ]/, "A")
>         gsub(/Ç/, "C")
>         gsub(/[ÈÉÊ]/, "E")
>         gsub(/Í/, "I")
>         gsub(/Ñ/, "N")
>         gsub(/[ÓÔÕÖ°º]/, "O")
>         gsub(/[ÚÜ]/, "U")
>         gsub(/ß/, "SS")
>
>         print
>
> }
>
> On 2014-03-23 18:31, Fernando Trebien wrote:
>>
>> Tentei, acho que os resultados são interessantes. Por isso, acabei
>> postando no fórum:
>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>>
>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <pei...@gmx.eu>:
>>>
>>>
>>> Olá,
>>>
>>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>>
>>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o
>>> anexo.
>>>
>>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>>> ubuntu.com:
>>>
>>> 1) municipio_cep_RUA_CNEFE.txt
>>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>>
>>>
>>> 2) municipio_rua_RUA_OSM.txt
>>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>>
>>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>>> dessa forma para evitar de mexer com as duas listas).
>>>
>>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>>> distância Levenshtein, ou algo semelhante.
>>>
>>> Alguem quer tentar ?
>>>
>>> Abçs, Hermann
>>>
>>>
>>> Anexo
>>>
>>>    Casos Nome
>>>      215 RUA SEM DENOMINACAO
>>>      163 RUA SEM NOME
>>>       91 RUA SEM NOME 2
>>>       88 BECO SEM NOME
>>>       84 RUA SEM NOME 1
>>>       77 BECO SEM DENOMINACAO
>>>       68 RUA SEM NOME 3
>>>       67 ESTRADA SEM DENOMINACAO
>>>       66 RUA SEM DENOMINACAO 2
>>>       60 TRAVESSA SEM NOME
>>>       57 RUA SEM DENOMINACAO 1
>>>       57 ESTRADA SEM NOME
>>>       54 RUA SEM NOME 4
>>>       45 RUA SEM DENOMINACAO 3
>>>       43 RUA SEM NOME 5
>>>       38 BECO SEM NOME 2
>>>       37 RUA SEM DENOMINACAO 4
>>>       36 TRAVESSA SEM DENOMINACAO
>>>       36 BECO SEM NOME 1
>>>       33 RUA SEM NOME 6
>>>       28 ESTRADA SEM NOME 2
>>>       27 ESTRADA SEM NOME 1
>>>       26 RUA SEM DENOMINACAO 5
>>>       25 RUA CASEMIRO DE ABREU
>>>       23 BECO SEM NOME 3
>>>       22 RUA SEM NOME 8
>>>       22 RUA SEM NOME 7
>>>       21 BECO SEM NOME 4
>>>       20 ESTRADA SEM DENOMINACAO 2
>>>
>>>
>>>
>>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>>>
>>>>
>>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien
>>>> <fernando.treb...@gmail.com>:
>>>>>
>>>>>
>>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>>>>> tendo menos falsas diferenças.
>>>>>
>>>>
>>>> Eh.... a qualidade dos dados está realmente bastante questionável....
>>>>
>>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
>>>> pérolas que encontrei:
>>>>
>>>> RUA SEMINTERIO
>>>> RUA DO CEMINTERIO
>>>> RUA CEMINTERIO
>>>>
>>>
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> Talk-br mailing list
>>> Talk-br@openstreetmap.org
>>> https://lists.openstreetmap.org/listinfo/talk-br
>>
>>
>>
>>
>
>
>
> _______________________________________________
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

_______________________________________________
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br

Responder a