Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Hermann Peifer

Fernando,

Claro: tu fais as comparações como tu achas mais adequadas. Eu só pensei 
que no caso de 'RUA A' <> 'RUA B': 4 caractères = 80% de igualdade 
parece muito alto, já que o prefixo 'RUA ' é quase omnipresente no 
CNEFE, como "Tipo do logradouro".


O que é que tu achas das comparações setoriais?

A tabela CNEFE cresceu: de 130 000 linhas > 190 000 linhas, Não tenho 
ainda a nova tabela setorial do OSM.


Abçs, Hermann

On 2014-03-24 3:32, Fernando Trebien wrote:

O fórum brasileiro foi criado há pouco tempo (meados do ano passado).
Se vocês olharem bem, o fórum alemão, o russo e o inglês têm muita
atividade (talvez mais do que as listas de e-mail, sinceramente não
acompanho tão de perto).

Embora no Brasil o fórum ainda esteja engatinhando, fora do Brasil ele
costuma ser usado pra diversas coisas (ou seja, o propósito é livre).
Andaram conversando aqui na lista (e eu acho que faz algum sentido
pensar assim) que o fórum é um espaço adequado a discussões mais
longas, cujo registro pode ser importante depois (basta mandar o link
pras pessoas que estiverem chegando na discussão), enquanto que a
lista é mais um espaço para anúncios, dúvidas rápidas ou assuntos
urgentes. Outra utilidade do fórum é poder referenciar a discussão no
próprio mapa (basta colocar o link pra discussão na tag note) quando
há divergências sobre a forma correta de mapear algo.

Eu acho interessante manter "rua" e "avenida" na comparação, pois
gostaríamos que esses prefixos constassem no mapa do OSM. Uma idéia:
- calcular duas distâncias: uma com (1) e outra sem (2) os prefixos
(rua, avenida, etc.)
- se ambas forem zero, não gerar nada na saída (os nomes são iguais)
- senão, usar 2 para ordenar a saída, mesmo que 2 seja zero; viria no
começo então todos os casos em que a única diferença está no prefixo

Vou tentar fazer isso ver como fica o resultado.

2014-03-23 23:15 GMT-03:00 Aun Johnsen 
:



PS: Alguem me pode explicar a lógica brasileira da dualidade de "lista talk-br" e "OSM Forum, users: 
Brazil" ? Minha hipótese é que o Forum serve mais para a "Geração Facebook" (a geração dos meus filhos), 
enquanto que, por outro lado, a lista talk-br é o veículo histórico de comunicação da "Geração pré-Facebook" 
(que nem eu). É verdade memo ? ;-)



Eu talvez sao do geracao mais velho, a lista talk-br e maia util p mim como 
recebendo no meu email, onde eu pode responder mesmo que viajando

O forum nao e bem util p mim como sempre viajando, utilizando computadores 
publico ou do trabalho

Sds
___
Talk-br mailing list
Talk-br-3+rWM/WnaLOn4i5uJCXUsti2O/jbr...@public.gmane.org
https://lists.openstreetmap.org/listinfo/talk-br







___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Fernando Trebien
O fórum brasileiro foi criado há pouco tempo (meados do ano passado).
Se vocês olharem bem, o fórum alemão, o russo e o inglês têm muita
atividade (talvez mais do que as listas de e-mail, sinceramente não
acompanho tão de perto).

Embora no Brasil o fórum ainda esteja engatinhando, fora do Brasil ele
costuma ser usado pra diversas coisas (ou seja, o propósito é livre).
Andaram conversando aqui na lista (e eu acho que faz algum sentido
pensar assim) que o fórum é um espaço adequado a discussões mais
longas, cujo registro pode ser importante depois (basta mandar o link
pras pessoas que estiverem chegando na discussão), enquanto que a
lista é mais um espaço para anúncios, dúvidas rápidas ou assuntos
urgentes. Outra utilidade do fórum é poder referenciar a discussão no
próprio mapa (basta colocar o link pra discussão na tag note) quando
há divergências sobre a forma correta de mapear algo.

Eu acho interessante manter "rua" e "avenida" na comparação, pois
gostaríamos que esses prefixos constassem no mapa do OSM. Uma idéia:
- calcular duas distâncias: uma com (1) e outra sem (2) os prefixos
(rua, avenida, etc.)
- se ambas forem zero, não gerar nada na saída (os nomes são iguais)
- senão, usar 2 para ordenar a saída, mesmo que 2 seja zero; viria no
começo então todos os casos em que a única diferença está no prefixo

Vou tentar fazer isso ver como fica o resultado.

2014-03-23 23:15 GMT-03:00 Aun Johnsen :
>
>> PS: Alguem me pode explicar a lógica brasileira da dualidade de "lista 
>> talk-br" e "OSM Forum, users: Brazil" ? Minha hipótese é que o Forum serve 
>> mais para a "Geração Facebook" (a geração dos meus filhos), enquanto que, 
>> por outro lado, a lista talk-br é o veículo histórico de comunicação da 
>> "Geração pré-Facebook" (que nem eu). É verdade memo ? ;-)
>>
>
> Eu talvez sao do geracao mais velho, a lista talk-br e maia util p mim como 
> recebendo no meu email, onde eu pode responder mesmo que viajando
>
> O forum nao e bem util p mim como sempre viajando, utilizando computadores 
> publico ou do trabalho
>
> Sds
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Aun Johnsen

> PS: Alguem me pode explicar a lógica brasileira da dualidade de "lista 
> talk-br" e "OSM Forum, users: Brazil" ? Minha hipótese é que o Forum serve 
> mais para a "Geração Facebook" (a geração dos meus filhos), enquanto que, por 
> outro lado, a lista talk-br é o veículo histórico de comunicação da "Geração 
> pré-Facebook" (que nem eu). É verdade memo ? ;-)
> 

Eu talvez sao do geracao mais velho, a lista talk-br e maia util p mim como 
recebendo no meu email, onde eu pode responder mesmo que viajando

O forum nao e bem util p mim como sempre viajando, utilizando computadores 
publico ou do trabalho

Sds
___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Hermann Peifer


Eu até ia cortar 'RUA ', 'AVENIDA ', 'ESTRADA ' antes do cálculo da 
distância (si este "prefixo" seria presente em ambos lados da 
comparação). Custa um pouco tempo para usar a função substr(), mais 
tambem reduza o cálculo Levenshtein.


Então o caso 'RUA A' <-> 'RUA B' seria 100% de distância. Parece muita 
distância, mas na realidade que eu vi, 'RUA A' e 'RUA B' são duas ruas 
vizinhas, mais diferentes mesmo.


Hermann

PS: Alguem me pode explicar a lógica brasileira da dualidade de "lista 
talk-br" e "OSM Forum, users: Brazil" ? Minha hipótese é que o Forum 
serve mais para a "Geração Facebook" (a geração dos meus filhos), 
enquanto que, por outro lado, a lista talk-br é o veículo histórico de 
comunicação da "Geração pré-Facebook" (que nem eu). É verdade memo ? ;-)


On 2014-03-23 23:16, Fernando Trebien wrote:

Hehe foi exatamente isso que eu fiz na segunda versão:
http://forum.openstreetmap.org/viewtopic.php?pid=408056#p408056

2014-03-23 19:04 GMT-03:00 Paulo Carvalho 
:

Sugiro dividir o valor da distância pelo número de caracteres de um dos
operandos.  Em ambos os exemplos a distância é 1.  Mas se relativizar, fica
25% para o primeiro exemplo e 3% para o segundo.


Em 23 de março de 2014 16:01, Hermann Peifer 
 escreveu:



Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
resultados, mas vou fazer logo.

A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
tem ambos uma distância de 1:

'RUA A' <-> 'RUA B'
'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'

No primeiro exemplo, um dos dois nomes seria completamente errado e no
segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
no assunto.

Abçs, Hermann



___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Hermann Peifer


Tambem já pensei nos setores censitários. A hierarquia no RS (em todo 
país?) e: município > distrito > subdistrito > setor


No RS teve em 2010 (e tem ainda, pelo que eu sei): 496 municípios e dois 
"pseudo-municípios": 431 LAGOA MIRIM e 432 LAGOA DOS PATOS. (O 
bom neste projeto é que a gente não precisa se preocupar muito com os 
pseudo-municípios ;-)


Os 496 municípios gaúchos são divididos em:
1230 distritos > 1370 sub-distritos > 22728 setores

Estou usando os shape do IBGE para fazer a(s) lista(s) OSM, não 
trabablho direto com os tags boundary/admin_level do OSM. O CNEFE 2010, 
abaixado do ftp.ibge.gov.br [1] e as divisas municipais/setoriais de 
2010 abaixado do geoftp.ibge.gov.br [2] me parecem uma boa combinação 
para fazer comparações consistentes. Usar as "próprias" divisas do 
OSM-BR seria um detalho por resolver depois (já que pelo estou vendo, a 
maioria das divisas do OSM-BR é um resultado de uma importação histórica 
de uma outra versão de divisas originando do IBGE).


Vou fazer 3 novas tabelas na base das divisas setoriais: RUAS_CNEFE, 
RUAS_OSM e SETORES_IBGE. Estas tabelas vão ter mais linhas porque a 
mesma avenida comprida vai aparecer em vários setores. Mesmo asim, acho 
que "comparações setoriais" podem melhorar o resultado, pelo menos na 
teoria..


Abraços, Hermann

[1] 
ftp://ftp.ibge.gov.br/Censos/Censo_Demografico_2010/Cadastro_Nacional_de_Enderecos_Fins_Estatisticos/RS/
[2] 
ftp://geoftp.ibge.gov.br/malhas_digitais/censo_2010/setores_censitarios/rs.zip 




On 2014-03-23 21:12, Fernando Trebien wrote:

Mas isso funcionaria também onde os distritos/subdistritos não estão
mapeados no OSM?

(Nem definimos ainda qual é o admin_level que se deve colocar pra
representar esses casos. Mas provavelmente deveríamos ter essa
discussão.)

Eu estava pensando se esse método de comparação não poderia se
estender para outros cadastros quaisquer (além do CNEFE). Assim seria
mais fácil integrar no OSM o melhor de todos os mundos que temos
disponíveis. Alguém sabe de outro cadastro que poderia ser
interessante comparar com o OSM?

2014-03-23 17:04 GMT-03:00 Thiago Marcos P. Santos :

2014-03-23 21:37 GMT+02:00 Fernando Trebien :

Exato. Isso na verdade me sugere um outro critério de ordenação do
resultado: tamanho do nome/distância de Levenshtein. Seria um critério
aproximado mas que ajudaria o revisor a começar direto com casos que
raramente seriam descartados e a deixar pro final os difíceis de
decidir. Postei no fórum o resultado de fazer assim, pra poder
comparar facilmente.

Vou tentar integrar o script com este outro arquivo pra gerar na saída
o nome ao invés do código da cidade. Depois, dá até pra dividir a
saída por cidade, colocar tudo num repositório, e só ir controlando no
wiki quais arquivos já foram revisados (ou talvez até ir passando de
um diretório para outro no repositório).

Minha impressão até o momento: a comparação dos cadastros é bastante
útil, mas não dá pra confiar no CNEFE sempre.



No CNEFE tem informações sobre o distrito, sub-distrito, etc. Se
pegarmos as informações do way em questão no OSM e fizermos um
bounding box, poderíamos restringir a busca aos sub-distritos que
fazer overlap com este bounding box e deixaríamos o resultado mais
preciso.

O que acham?

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br








___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Mudança na URL da layer TMS do IBGE

2014-03-23 Thread Fernando Trebien
Thiago, uma pergunta (não sei se perdi algum pedaço no começo da
história): você está fazendo os alinhamentos manualmente? Se sim,
poderia contar com a ajuda de mais pessoas interessadas.

2014-03-23 19:20 GMT-03:00 Lists :
> Um camada bem legal
>
> Vou tentar adicionar todos os nomes
>
> Um pergunto, no Guarapari, muitos dos nomes e bem difícil a ler, no que zoom
> e melhor?
>
> Aun Johnsen
>
> On Mar 23, 2014, at 6:49, Hélio Ricardo Pinheiro Coutinho
>  wrote:
>
> O interior do Rio de Janeiro ficaria muito agradecido com a sua inclusão...
> Está bem precário... Obr.
>
> 
> From: raffaellobr...@hotmail.com
> To: talk-br@openstreetmap.org
> Date: Sun, 23 Mar 2014 00:30:12 +
> Subject: Re: [Talk-br] Mudança na URL da layer TMS do IBGE
>
> Gostei da ordem alfabética, rsrs, porque estou mapeando em Alagoas.
>
> Obrigado.
>
>
>> From: tmpsan...@gmail.com
>> Date: Thu, 20 Mar 2014 23:36:47 +0200
>> To: talk-br@openstreetmap.org
>> Subject: Re: [Talk-br] Mudança na URL da layer TMS do IBGE
>>
>> Pessoal, anuncio que MG está completo. Confesso que ficou legal
>> demais de ser ver no mapa web, tem coisa demais para trabalhar. :)
>>
>> Arrumei o problema de algumas cidades não aparecerem nos níveis de
>> zoom mais distantes (se isto ainda acontecer com você na visualização
>> web ou no JOSM, limpe o cache do seu browser e do JOSM). Havia também
>> um problema com conurbações faltarem tiles onde elas se encontram que
>> também foi resolvido.
>>
>> Agora vou processar os estados restantes em ordem alfabética,
>> começando portanto por AC, AL, etc...
>>
>> Claro que a prioridade ainda é processar cidades que alguém queira
>> trabalhar em cima. Podem me mandar uma lista de qualquer tamanho no
>> formato:
>>
>> UF;CODIGO
>>
>> Exemplo:
>>
>> SC;4204806
>> PR;4106902
>> DF;5300108
>> ...
>>
>> Não há mais restrição de tamanho de cidade, o script tá funcionando bem.
>> :)
>>
>> []'s
>>
>> 2014-03-19 2:19 GMT+02:00 Thiago Marcos P. Santos :
>> > Olá,
>> >
>> > Agora os tiles de todas as cidades já processadas estão em um lugar só:
>> >
>> > http://tiles.tmpsantos.com.br/v2/ibge/{zoom}/{x}/{y}.png
>> >
>> > Bem mais conveniente já que não precisa ficar adicionando uma nova
>> > layer no JOSM para cada cidade. Porém, em zooms mais distantes, podem
>> > aparecer "buracos" entre cidades próximas (i.e. veja BH, Contagem e
>> > Betim). Quando eu terminar de processar todas as cidades, talvez eu
>> > consiga resolver isso fazendo um merge mais inteligente dos arquivos
>> > .mbtiles.
>> >
>> > Feedback é bem vindo.
>> >
>> > Br,
>>
>> ___
>> Talk-br mailing list
>> Talk-br@openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
> ___ Talk-br mailing list
> Talk-br@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-br
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Mudança na URL da layer TMS do IBGE

2014-03-23 Thread Lists
Um camada bem legal

Vou tentar adicionar todos os nomes

Um pergunto, no Guarapari, muitos dos nomes e bem difícil a ler, no que zoom e 
melhor?

Aun Johnsen

On Mar 23, 2014, at 6:49, Hélio Ricardo Pinheiro Coutinho 
 wrote:

> O interior do Rio de Janeiro ficaria muito agradecido com a sua inclusão... 
> Está bem precário... Obr.
> 
> From: raffaellobr...@hotmail.com
> To: talk-br@openstreetmap.org
> Date: Sun, 23 Mar 2014 00:30:12 +
> Subject: Re: [Talk-br] Mudança na URL da layer TMS do IBGE
> 
> Gostei da ordem alfabética, rsrs, porque estou mapeando em Alagoas.
> 
> Obrigado.
> 
> 
> > From: tmpsan...@gmail.com
> > Date: Thu, 20 Mar 2014 23:36:47 +0200
> > To: talk-br@openstreetmap.org
> > Subject: Re: [Talk-br] Mudança na URL da layer TMS do IBGE
> > 
> > Pessoal, anuncio que MG está completo. Confesso que ficou legal
> > demais de ser ver no mapa web, tem coisa demais para trabalhar. :)
> > 
> > Arrumei o problema de algumas cidades não aparecerem nos níveis de
> > zoom mais distantes (se isto ainda acontecer com você na visualização
> > web ou no JOSM, limpe o cache do seu browser e do JOSM). Havia também
> > um problema com conurbações faltarem tiles onde elas se encontram que
> > também foi resolvido.
> > 
> > Agora vou processar os estados restantes em ordem alfabética,
> > começando portanto por AC, AL, etc...
> > 
> > Claro que a prioridade ainda é processar cidades que alguém queira
> > trabalhar em cima. Podem me mandar uma lista de qualquer tamanho no
> > formato:
> > 
> > UF;CODIGO
> > 
> > Exemplo:
> > 
> > SC;4204806
> > PR;4106902
> > DF;5300108
> > ...
> > 
> > Não há mais restrição de tamanho de cidade, o script tá funcionando bem. :)
> > 
> > []'s
> > 
> > 2014-03-19 2:19 GMT+02:00 Thiago Marcos P. Santos :
> > > Olá,
> > >
> > > Agora os tiles de todas as cidades já processadas estão em um lugar só:
> > >
> > > http://tiles.tmpsantos.com.br/v2/ibge/{zoom}/{x}/{y}.png
> > >
> > > Bem mais conveniente já que não precisa ficar adicionando uma nova
> > > layer no JOSM para cada cidade. Porém, em zooms mais distantes, podem
> > > aparecer "buracos" entre cidades próximas (i.e. veja BH, Contagem e
> > > Betim). Quando eu terminar de processar todas as cidades, talvez eu
> > > consiga resolver isso fazendo um merge mais inteligente dos arquivos
> > > .mbtiles.
> > >
> > > Feedback é bem vindo.
> > >
> > > Br,
> > 
> > ___
> > Talk-br mailing list
> > Talk-br@openstreetmap.org
> > https://lists.openstreetmap.org/listinfo/talk-br
> 
> ___ Talk-br mailing list 
> Talk-br@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-br
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Fernando Trebien
Hehe foi exatamente isso que eu fiz na segunda versão:
http://forum.openstreetmap.org/viewtopic.php?pid=408056#p408056

2014-03-23 19:04 GMT-03:00 Paulo Carvalho :
> Sugiro dividir o valor da distância pelo número de caracteres de um dos
> operandos.  Em ambos os exemplos a distância é 1.  Mas se relativizar, fica
> 25% para o primeiro exemplo e 3% para o segundo.
>
>
> Em 23 de março de 2014 16:01, Hermann Peifer  escreveu:
>
>>
>> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
>> resultados, mas vou fazer logo.
>>
>> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
>> tem ambos uma distância de 1:
>>
>> 'RUA A' <-> 'RUA B'
>> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
>>
>> No primeiro exemplo, um dos dois nomes seria completamente errado e no
>> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
>> no assunto.
>>
>> Abçs, Hermann
>>
>> PS:
>>
>> Agora tambem coloquei os nomes dos municípios na minha pasta:
>> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
>> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
>> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
>>
>> Minha NORMALIZACAO does nomes das ruas do OSM era asim:
>>
>> $ cat scripts/translit.awk
>>
>> {
>> $0 = toupper($0)
>> gsub(/[ÀÁÂÃĪ]/, "A")
>> gsub(/Ç/, "C")
>> gsub(/[ÈÉÊ]/, "E")
>> gsub(/Í/, "I")
>> gsub(/Ñ/, "N")
>> gsub(/[ÓÔÕÖ°º]/, "O")
>> gsub(/[ÚÜ]/, "U")
>> gsub(/ß/, "SS")
>>
>> print
>>
>> }
>>
>> On 2014-03-23 18:31, Fernando Trebien wrote:
>>>
>>> Tentei, acho que os resultados são interessantes. Por isso, acabei
>>> postando no fórum:
>>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>>>
>>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer :


 Olá,

 Fiz algumas pesquisas provisórias, pegando os dados do RS:

 O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
 eles tem uma boa quantidade de varias formas de ruas sem nome, veja o
 anexo.

 Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
 ubuntu.com:

 1) municipio_cep_RUA_CNEFE.txt
 Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
 http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs


 2) municipio_rua_RUA_OSM.txt
 Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
 http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9

 Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
 facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
 dessa forma para evitar de mexer com as duas listas).

 Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
 distância Levenshtein, ou algo semelhante.

 Alguem quer tentar ?

 Abçs, Hermann


 Anexo

Casos Nome
  215 RUA SEM DENOMINACAO
  163 RUA SEM NOME
   91 RUA SEM NOME 2
   88 BECO SEM NOME
   84 RUA SEM NOME 1
   77 BECO SEM DENOMINACAO
   68 RUA SEM NOME 3
   67 ESTRADA SEM DENOMINACAO
   66 RUA SEM DENOMINACAO 2
   60 TRAVESSA SEM NOME
   57 RUA SEM DENOMINACAO 1
   57 ESTRADA SEM NOME
   54 RUA SEM NOME 4
   45 RUA SEM DENOMINACAO 3
   43 RUA SEM NOME 5
   38 BECO SEM NOME 2
   37 RUA SEM DENOMINACAO 4
   36 TRAVESSA SEM DENOMINACAO
   36 BECO SEM NOME 1
   33 RUA SEM NOME 6
   28 ESTRADA SEM NOME 2
   27 ESTRADA SEM NOME 1
   26 RUA SEM DENOMINACAO 5
   25 RUA CASEMIRO DE ABREU
   23 BECO SEM NOME 3
   22 RUA SEM NOME 8
   22 RUA SEM NOME 7
   21 BECO SEM NOME 4
   20 ESTRADA SEM DENOMINACAO 2



 On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>
>
> 2014-03-23 14:53 GMT+02:00 Fernando Trebien
> :
>>
>>
>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>> tendo menos falsas diferenças.
>>
>
> Eh a qualidade dos dados está realmente bastante questionável
>
> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
> pérolas que encontrei:
>
> RUA SEMINTERIO
> RUA DO CEMINTERIO
> RUA CEMINTERIO
>





 ___
 Talk-br mailing list
 Talk-br@openstreetmap.org
 https://lists.openstreetmap.org/listinfo/talk-br
>>>
>>>
>>>
>>>
>>
>>
>>
>> ___
>> Talk-br mailing list
>> Talk-br@openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
> _

Re: [Talk-br] Caminhos como "via" em restrições

2014-03-23 Thread Fernando Trebien
Dê uma lida nesta seção:
http://wiki.openstreetmap.org/wiki/Pt-br:Tutorial:Restri%C3%A7%C3%B5es_de_Convers%C3%A3o#Linha_como_intermedi.C3.A1rio

Mapear desta forma não é suportado por nenhum software de GPS. Ou
seja, fazer assim significa que, hoje, na prática, nenhum sistema
respeitaria a restrição - o que obviamente leva a erros (bem
grotescos) de roteamento.

É um objetivo da comunidade que isso se torne amplamente suportado
para evitar ter que alterar a forma ideal(izada) de mapear. Faz todo o
sentido, do ponto de vista de um mapeador, mas não do ponto de vista
do usuário... que não quer nem saber dos detalhes da aplicação, ou das
práticas de mapeamento, só quer que o sistema funcione.

Então o que temos é um impasse: nos adaptamos (aceitando algo inferior
ao ideal), para que funcione com os sistemas que existem hoje, ou não
nos adaptamos (impondo o ideal) e perdemos oportunidades de despertar
o interesse de novos colaboradores. (É assim que eu encaro a questão.)

Fato é que o OSRM já demonstrou interesse e (agora, como o Nelson
apontou) o mkgmap resolveu tratar do problema. Ou seja, estamos perto
de poder recomendar, sem medo, essa forma ideal de mapear. Eu mesmo
estou esperando (há meses - mas sei que tem gente esperando há anos)
pra poder desfazer algumas coisas que eu fiz em PoA pra contornar esse
problema.

On Sun, Mar 23, 2014 at 6:59 PM, Paulo Carvalho
 wrote:
> Acho que perdi o porque disso ser especial.  Alguém pode explicar?
>
> grato,
>
> Paulo
>
>
> 2014-03-23 11:33 GMT-03:00 Nelson A. de Oliveira :
>
>> Agora pelo menos uma aplicação existe que suporta o uso de caminhos no
>> "via" das restrições:
>> http://www.mkgmap.org.uk/websvn/revision.php?repname=mkgmap&rev=3121
>>
>> ___
>> Talk-br mailing list
>> Talk-br@openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Paulo Carvalho
Sugiro dividir o valor da distância pelo número de caracteres de um dos
operandos.  Em ambos os exemplos a distância é 1.  Mas se relativizar, fica
25% para o primeiro exemplo e 3% para o segundo.


Em 23 de março de 2014 16:01, Hermann Peifer  escreveu:

>
> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
> resultados, mas vou fazer logo.
>
> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
> tem ambos uma distância de 1:
>
> 'RUA A' <-> 'RUA B'
> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
>
> No primeiro exemplo, um dos dois nomes seria completamente errado e no
> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
> no assunto.
>
> Abçs, Hermann
>
> PS:
>
> Agora tambem coloquei os nomes dos municípios na minha pasta:
> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
>
> Minha NORMALIZACAO does nomes das ruas do OSM era asim:
>
> $ cat scripts/translit.awk
>
> {
> $0 = toupper($0)
> gsub(/[ÀÁÂÃĪ]/, "A")
> gsub(/Ç/, "C")
> gsub(/[ÈÉÊ]/, "E")
> gsub(/Í/, "I")
> gsub(/Ñ/, "N")
> gsub(/[ÓÔÕÖ°º]/, "O")
> gsub(/[ÚÜ]/, "U")
> gsub(/ß/, "SS")
>
> print
>
> }
>
> On 2014-03-23 18:31, Fernando Trebien wrote:
>
>> Tentei, acho que os resultados são interessantes. Por isso, acabei
>> postando no fórum:
>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>>
>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer :
>>
>>>
>>> Olá,
>>>
>>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>>
>>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o
>>> anexo.
>>>
>>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>>> ubuntu.com:
>>>
>>> 1) municipio_cep_RUA_CNEFE.txt
>>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>>
>>>
>>> 2) municipio_rua_RUA_OSM.txt
>>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>>
>>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>>> dessa forma para evitar de mexer com as duas listas).
>>>
>>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>>> distância Levenshtein, ou algo semelhante.
>>>
>>> Alguem quer tentar ?
>>>
>>> Abçs, Hermann
>>>
>>>
>>> Anexo
>>>
>>>Casos Nome
>>>  215 RUA SEM DENOMINACAO
>>>  163 RUA SEM NOME
>>>   91 RUA SEM NOME 2
>>>   88 BECO SEM NOME
>>>   84 RUA SEM NOME 1
>>>   77 BECO SEM DENOMINACAO
>>>   68 RUA SEM NOME 3
>>>   67 ESTRADA SEM DENOMINACAO
>>>   66 RUA SEM DENOMINACAO 2
>>>   60 TRAVESSA SEM NOME
>>>   57 RUA SEM DENOMINACAO 1
>>>   57 ESTRADA SEM NOME
>>>   54 RUA SEM NOME 4
>>>   45 RUA SEM DENOMINACAO 3
>>>   43 RUA SEM NOME 5
>>>   38 BECO SEM NOME 2
>>>   37 RUA SEM DENOMINACAO 4
>>>   36 TRAVESSA SEM DENOMINACAO
>>>   36 BECO SEM NOME 1
>>>   33 RUA SEM NOME 6
>>>   28 ESTRADA SEM NOME 2
>>>   27 ESTRADA SEM NOME 1
>>>   26 RUA SEM DENOMINACAO 5
>>>   25 RUA CASEMIRO DE ABREU
>>>   23 BECO SEM NOME 3
>>>   22 RUA SEM NOME 8
>>>   22 RUA SEM NOME 7
>>>   21 BECO SEM NOME 4
>>>   20 ESTRADA SEM DENOMINACAO 2
>>>
>>>
>>>
>>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>>

 2014-03-23 14:53 GMT+02:00 Fernando Trebien >>> >:

>
> Pelo que entendi é no processamento, pra poder comparar as duas bases
> tendo menos falsas diferenças.
>
>
 Eh a qualidade dos dados está realmente bastante questionável

 Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
 pérolas que encontrei:

 RUA SEMINTERIO
 RUA DO CEMINTERIO
 RUA CEMINTERIO


>>>
>>>
>>>
>>>
>>> ___
>>> Talk-br mailing list
>>> Talk-br@openstreetmap.org
>>> https://lists.openstreetmap.org/listinfo/talk-br
>>>
>>
>>
>>
>>
>
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Caminhos como "via" em restrições

2014-03-23 Thread Paulo Carvalho
Acho que perdi o porque disso ser especial.  Alguém pode explicar?

grato,

Paulo


2014-03-23 11:33 GMT-03:00 Nelson A. de Oliveira :

> Agora pelo menos uma aplicação existe que suporta o uso de caminhos no
> "via" das restrições:
> http://www.mkgmap.org.uk/websvn/revision.php?repname=mkgmap&rev=3121
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Caminhos como "via" em restrições

2014-03-23 Thread Fernando Trebien
Hm ok. Mas daí só usuários de GPSs Garmin poderão se beneficiar e...
isso me parece meio contraditório.

2014-03-23 18:15 GMT-03:00 Nelson A. de Oliveira :
>
> Em 23/03/2014 14:36, "Fernando Trebien" 
> escreveu:
>
>
>>
>> "work in progress", diz ali.
>
> Sim, mas logo estará funcional.
>
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Caminhos como "via" em restrições

2014-03-23 Thread Nelson A. de Oliveira
Em 23/03/2014 14:36, "Fernando Trebien" 
escreveu:
>
> "work in progress", diz ali.

Sim, mas logo estará funcional.
___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Fernando Trebien
Mas isso funcionaria também onde os distritos/subdistritos não estão
mapeados no OSM?

(Nem definimos ainda qual é o admin_level que se deve colocar pra
representar esses casos. Mas provavelmente deveríamos ter essa
discussão.)

Eu estava pensando se esse método de comparação não poderia se
estender para outros cadastros quaisquer (além do CNEFE). Assim seria
mais fácil integrar no OSM o melhor de todos os mundos que temos
disponíveis. Alguém sabe de outro cadastro que poderia ser
interessante comparar com o OSM?

2014-03-23 17:04 GMT-03:00 Thiago Marcos P. Santos :
> 2014-03-23 21:37 GMT+02:00 Fernando Trebien :
>> Exato. Isso na verdade me sugere um outro critério de ordenação do
>> resultado: tamanho do nome/distância de Levenshtein. Seria um critério
>> aproximado mas que ajudaria o revisor a começar direto com casos que
>> raramente seriam descartados e a deixar pro final os difíceis de
>> decidir. Postei no fórum o resultado de fazer assim, pra poder
>> comparar facilmente.
>>
>> Vou tentar integrar o script com este outro arquivo pra gerar na saída
>> o nome ao invés do código da cidade. Depois, dá até pra dividir a
>> saída por cidade, colocar tudo num repositório, e só ir controlando no
>> wiki quais arquivos já foram revisados (ou talvez até ir passando de
>> um diretório para outro no repositório).
>>
>> Minha impressão até o momento: a comparação dos cadastros é bastante
>> útil, mas não dá pra confiar no CNEFE sempre.
>>
>
> No CNEFE tem informações sobre o distrito, sub-distrito, etc. Se
> pegarmos as informações do way em questão no OSM e fizermos um
> bounding box, poderíamos restringir a busca aos sub-distritos que
> fazer overlap com este bounding box e deixaríamos o resultado mais
> preciso.
>
> O que acham?
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Thiago Marcos P. Santos
2014-03-23 21:37 GMT+02:00 Fernando Trebien :
> Exato. Isso na verdade me sugere um outro critério de ordenação do
> resultado: tamanho do nome/distância de Levenshtein. Seria um critério
> aproximado mas que ajudaria o revisor a começar direto com casos que
> raramente seriam descartados e a deixar pro final os difíceis de
> decidir. Postei no fórum o resultado de fazer assim, pra poder
> comparar facilmente.
>
> Vou tentar integrar o script com este outro arquivo pra gerar na saída
> o nome ao invés do código da cidade. Depois, dá até pra dividir a
> saída por cidade, colocar tudo num repositório, e só ir controlando no
> wiki quais arquivos já foram revisados (ou talvez até ir passando de
> um diretório para outro no repositório).
>
> Minha impressão até o momento: a comparação dos cadastros é bastante
> útil, mas não dá pra confiar no CNEFE sempre.
>

No CNEFE tem informações sobre o distrito, sub-distrito, etc. Se
pegarmos as informações do way em questão no OSM e fizermos um
bounding box, poderíamos restringir a busca aos sub-distritos que
fazer overlap com este bounding box e deixaríamos o resultado mais
preciso.

O que acham?

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Fernando Trebien
Exato. Isso na verdade me sugere um outro critério de ordenação do
resultado: tamanho do nome/distância de Levenshtein. Seria um critério
aproximado mas que ajudaria o revisor a começar direto com casos que
raramente seriam descartados e a deixar pro final os difíceis de
decidir. Postei no fórum o resultado de fazer assim, pra poder
comparar facilmente.

Vou tentar integrar o script com este outro arquivo pra gerar na saída
o nome ao invés do código da cidade. Depois, dá até pra dividir a
saída por cidade, colocar tudo num repositório, e só ir controlando no
wiki quais arquivos já foram revisados (ou talvez até ir passando de
um diretório para outro no repositório).

Minha impressão até o momento: a comparação dos cadastros é bastante
útil, mas não dá pra confiar no CNEFE sempre.

2014-03-23 16:01 GMT-03:00 Hermann Peifer :
>
> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
> resultados, mas vou fazer logo.
>
> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos tem
> ambos uma distância de 1:
>
> 'RUA A' <-> 'RUA B'
> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
>
> No primeiro exemplo, um dos dois nomes seria completamente errado e no
> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
> no assunto.
>
> Abçs, Hermann
>
> PS:
>
> Agora tambem coloquei os nomes dos municípios na minha pasta:
> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
>
> Minha NORMALIZACAO does nomes das ruas do OSM era asim:
>
> $ cat scripts/translit.awk
>
> {
> $0 = toupper($0)
> gsub(/[ÀÁÂÃĪ]/, "A")
> gsub(/Ç/, "C")
> gsub(/[ÈÉÊ]/, "E")
> gsub(/Í/, "I")
> gsub(/Ñ/, "N")
> gsub(/[ÓÔÕÖ°º]/, "O")
> gsub(/[ÚÜ]/, "U")
> gsub(/ß/, "SS")
>
> print
>
> }
>
> On 2014-03-23 18:31, Fernando Trebien wrote:
>>
>> Tentei, acho que os resultados são interessantes. Por isso, acabei
>> postando no fórum:
>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>>
>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer :
>>>
>>>
>>> Olá,
>>>
>>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>>
>>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o
>>> anexo.
>>>
>>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>>> ubuntu.com:
>>>
>>> 1) municipio_cep_RUA_CNEFE.txt
>>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>>
>>>
>>> 2) municipio_rua_RUA_OSM.txt
>>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>>
>>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>>> dessa forma para evitar de mexer com as duas listas).
>>>
>>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>>> distância Levenshtein, ou algo semelhante.
>>>
>>> Alguem quer tentar ?
>>>
>>> Abçs, Hermann
>>>
>>>
>>> Anexo
>>>
>>>Casos Nome
>>>  215 RUA SEM DENOMINACAO
>>>  163 RUA SEM NOME
>>>   91 RUA SEM NOME 2
>>>   88 BECO SEM NOME
>>>   84 RUA SEM NOME 1
>>>   77 BECO SEM DENOMINACAO
>>>   68 RUA SEM NOME 3
>>>   67 ESTRADA SEM DENOMINACAO
>>>   66 RUA SEM DENOMINACAO 2
>>>   60 TRAVESSA SEM NOME
>>>   57 RUA SEM DENOMINACAO 1
>>>   57 ESTRADA SEM NOME
>>>   54 RUA SEM NOME 4
>>>   45 RUA SEM DENOMINACAO 3
>>>   43 RUA SEM NOME 5
>>>   38 BECO SEM NOME 2
>>>   37 RUA SEM DENOMINACAO 4
>>>   36 TRAVESSA SEM DENOMINACAO
>>>   36 BECO SEM NOME 1
>>>   33 RUA SEM NOME 6
>>>   28 ESTRADA SEM NOME 2
>>>   27 ESTRADA SEM NOME 1
>>>   26 RUA SEM DENOMINACAO 5
>>>   25 RUA CASEMIRO DE ABREU
>>>   23 BECO SEM NOME 3
>>>   22 RUA SEM NOME 8
>>>   22 RUA SEM NOME 7
>>>   21 BECO SEM NOME 4
>>>   20 ESTRADA SEM DENOMINACAO 2
>>>
>>>
>>>
>>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:


 2014-03-23 14:53 GMT+02:00 Fernando Trebien
 :
>
>
> Pelo que entendi é no processamento, pra poder comparar as duas bases
> tendo menos falsas diferenças.
>

 Eh a qualidade dos dados está realmente bastante questionável

 Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
 pérolas que encontrei:

 RUA SEMINTERIO
 RUA DO CEMINTERIO
 RUA CEMINTERIO

>>>
>>>
>>>
>>>
>>>
>>> ___
>>> Talk-br mailing list
>>> Talk-br@openstreetmap.org
>>> htt

Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Hermann Peifer


Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos 
resultados, mas vou fazer logo.


A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos 
tem ambos uma distância de 1:


'RUA A' <-> 'RUA B'
'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'

No primeiro exemplo, um dos dois nomes seria completamente errado e no 
segundo exemplo falta só uma letra no meio de um nome comprido. Vou 
pensar no assunto.


Abçs, Hermann

PS:

Agora tambem coloquei os nomes dos municípios na minha pasta:
MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC

Minha NORMALIZACAO does nomes das ruas do OSM era asim:

$ cat scripts/translit.awk

{
$0 = toupper($0)
gsub(/[ÀÁÂÃĪ]/, "A")
gsub(/Ç/, "C")
gsub(/[ÈÉÊ]/, "E")
gsub(/Í/, "I")
gsub(/Ñ/, "N")
gsub(/[ÓÔÕÖ°º]/, "O")
gsub(/[ÚÜ]/, "U")
gsub(/ß/, "SS")

print
}

On 2014-03-23 18:31, Fernando Trebien wrote:

Tentei, acho que os resultados são interessantes. Por isso, acabei
postando no fórum:
http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015

2014-03-23 12:01 GMT-03:00 Hermann Peifer :


Olá,

Fiz algumas pesquisas provisórias, pegando os dados do RS:

O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.

Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
ubuntu.com:

1) municipio_cep_RUA_CNEFE.txt
Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs


2) municipio_rua_RUA_OSM.txt
Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9

Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
dessa forma para evitar de mexer com as duas listas).

Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
distância Levenshtein, ou algo semelhante.

Alguem quer tentar ?

Abçs, Hermann


Anexo

   Casos Nome
 215 RUA SEM DENOMINACAO
 163 RUA SEM NOME
  91 RUA SEM NOME 2
  88 BECO SEM NOME
  84 RUA SEM NOME 1
  77 BECO SEM DENOMINACAO
  68 RUA SEM NOME 3
  67 ESTRADA SEM DENOMINACAO
  66 RUA SEM DENOMINACAO 2
  60 TRAVESSA SEM NOME
  57 RUA SEM DENOMINACAO 1
  57 ESTRADA SEM NOME
  54 RUA SEM NOME 4
  45 RUA SEM DENOMINACAO 3
  43 RUA SEM NOME 5
  38 BECO SEM NOME 2
  37 RUA SEM DENOMINACAO 4
  36 TRAVESSA SEM DENOMINACAO
  36 BECO SEM NOME 1
  33 RUA SEM NOME 6
  28 ESTRADA SEM NOME 2
  27 ESTRADA SEM NOME 1
  26 RUA SEM DENOMINACAO 5
  25 RUA CASEMIRO DE ABREU
  23 BECO SEM NOME 3
  22 RUA SEM NOME 8
  22 RUA SEM NOME 7
  21 BECO SEM NOME 4
  20 ESTRADA SEM DENOMINACAO 2



On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:


2014-03-23 14:53 GMT+02:00 Fernando Trebien :


Pelo que entendi é no processamento, pra poder comparar as duas bases
tendo menos falsas diferenças.



Eh a qualidade dos dados está realmente bastante questionável

Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
pérolas que encontrei:

RUA SEMINTERIO
RUA DO CEMINTERIO
RUA CEMINTERIO







___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br








___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Caminhos como "via" em restrições

2014-03-23 Thread Fernando Trebien
"work in progress", diz ali.

On Sun, Mar 23, 2014 at 11:33 AM, Nelson A. de Oliveira
 wrote:
> Agora pelo menos uma aplicação existe que suporta o uso de caminhos no
> "via" das restrições:
> http://www.mkgmap.org.uk/websvn/revision.php?repname=mkgmap&rev=3121
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Fernando Trebien
Tentei, acho que os resultados são interessantes. Por isso, acabei
postando no fórum:
http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015

2014-03-23 12:01 GMT-03:00 Hermann Peifer :
>
> Olá,
>
> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>
> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.
>
> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
> ubuntu.com:
>
> 1) municipio_cep_RUA_CNEFE.txt
> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>
>
> 2) municipio_rua_RUA_OSM.txt
> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>
> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
> dessa forma para evitar de mexer com as duas listas).
>
> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
> distância Levenshtein, ou algo semelhante.
>
> Alguem quer tentar ?
>
> Abçs, Hermann
>
>
> Anexo
>
>   Casos Nome
> 215 RUA SEM DENOMINACAO
> 163 RUA SEM NOME
>  91 RUA SEM NOME 2
>  88 BECO SEM NOME
>  84 RUA SEM NOME 1
>  77 BECO SEM DENOMINACAO
>  68 RUA SEM NOME 3
>  67 ESTRADA SEM DENOMINACAO
>  66 RUA SEM DENOMINACAO 2
>  60 TRAVESSA SEM NOME
>  57 RUA SEM DENOMINACAO 1
>  57 ESTRADA SEM NOME
>  54 RUA SEM NOME 4
>  45 RUA SEM DENOMINACAO 3
>  43 RUA SEM NOME 5
>  38 BECO SEM NOME 2
>  37 RUA SEM DENOMINACAO 4
>  36 TRAVESSA SEM DENOMINACAO
>  36 BECO SEM NOME 1
>  33 RUA SEM NOME 6
>  28 ESTRADA SEM NOME 2
>  27 ESTRADA SEM NOME 1
>  26 RUA SEM DENOMINACAO 5
>  25 RUA CASEMIRO DE ABREU
>  23 BECO SEM NOME 3
>  22 RUA SEM NOME 8
>  22 RUA SEM NOME 7
>  21 BECO SEM NOME 4
>  20 ESTRADA SEM DENOMINACAO 2
>
>
>
> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>
>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien :
>>>
>>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>>> tendo menos falsas diferenças.
>>>
>>
>> Eh a qualidade dos dados está realmente bastante questionável
>>
>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
>> pérolas que encontrei:
>>
>> RUA SEMINTERIO
>> RUA DO CEMINTERIO
>> RUA CEMINTERIO
>>
>
>
>
>
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Hermann Peifer


Olá,

Fiz algumas pesquisas provisórias, pegando os dados do RS:

O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre 
eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.


Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no 
ubuntu.com:


1) municipio_cep_RUA_CNEFE.txt
Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs


2) municipio_rua_RUA_OSM.txt
Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9

Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para 
facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz 
dessa forma para evitar de mexer com as duas listas).


Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a 
distância Levenshtein, ou algo semelhante.


Alguem quer tentar ?

Abçs, Hermann


Anexo

  Casos Nome
215 RUA SEM DENOMINACAO
163 RUA SEM NOME
 91 RUA SEM NOME 2
 88 BECO SEM NOME
 84 RUA SEM NOME 1
 77 BECO SEM DENOMINACAO
 68 RUA SEM NOME 3
 67 ESTRADA SEM DENOMINACAO
 66 RUA SEM DENOMINACAO 2
 60 TRAVESSA SEM NOME
 57 RUA SEM DENOMINACAO 1
 57 ESTRADA SEM NOME
 54 RUA SEM NOME 4
 45 RUA SEM DENOMINACAO 3
 43 RUA SEM NOME 5
 38 BECO SEM NOME 2
 37 RUA SEM DENOMINACAO 4
 36 TRAVESSA SEM DENOMINACAO
 36 BECO SEM NOME 1
 33 RUA SEM NOME 6
 28 ESTRADA SEM NOME 2
 27 ESTRADA SEM NOME 1
 26 RUA SEM DENOMINACAO 5
 25 RUA CASEMIRO DE ABREU
 23 BECO SEM NOME 3
 22 RUA SEM NOME 8
 22 RUA SEM NOME 7
 21 BECO SEM NOME 4
 20 ESTRADA SEM DENOMINACAO 2


On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:

2014-03-23 14:53 GMT+02:00 Fernando Trebien :

Pelo que entendi é no processamento, pra poder comparar as duas bases
tendo menos falsas diferenças.



Eh a qualidade dos dados está realmente bastante questionável

Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
pérolas que encontrei:

RUA SEMINTERIO
RUA DO CEMINTERIO
RUA CEMINTERIO







___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Gerald Weber
>
> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
> pérolas que encontrei:
>
> RUA SEMINTERIO
> RUA DO CEMINTERIO
> RUA CEMINTERIO
>
>
Hehe, deve ser onde enterraram a ortografia da língua portuguesa ;)
___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Fernando Trebien
Heh eu encontrei muito disso trabalhando nos itinerarios de transporte
público aqui em PoA. Faz parte, não acho que seria motivo pra abandonar a
idéia.
On Mar 23, 2014 10:25 AM, "Thiago Marcos P. Santos" 
wrote:

> 2014-03-23 14:53 GMT+02:00 Fernando Trebien :
> > Pelo que entendi é no processamento, pra poder comparar as duas bases
> > tendo menos falsas diferenças.
> >
>
> Eh a qualidade dos dados está realmente bastante questionável
>
> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
> pérolas que encontrei:
>
> RUA SEMINTERIO
> RUA DO CEMINTERIO
> RUA CEMINTERIO
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


[Talk-br] Caminhos como "via" em restrições

2014-03-23 Thread Nelson A. de Oliveira
Agora pelo menos uma aplicação existe que suporta o uso de caminhos no
"via" das restrições:
http://www.mkgmap.org.uk/websvn/revision.php?repname=mkgmap&rev=3121

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Thiago Marcos P. Santos
2014-03-23 14:53 GMT+02:00 Fernando Trebien :
> Pelo que entendi é no processamento, pra poder comparar as duas bases
> tendo menos falsas diferenças.
>

Eh a qualidade dos dados está realmente bastante questionável

Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
pérolas que encontrei:

RUA SEMINTERIO
RUA DO CEMINTERIO
RUA CEMINTERIO

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Fernando Trebien
Pelo que entendi é no processamento, pra poder comparar as duas bases
tendo menos falsas diferenças.

2014-03-23 9:50 GMT-03:00 Paulo Carvalho :
> Quando você diz "normalizar os dados", você diz para utilizar no seu
> processamento?  Ou é para normalizar na base OSM?
>
>
> Em 23 de março de 2014 09:30, Thiago Marcos P. Santos 
> escreveu:
>
>> 2014-03-22 22:13 GMT+02:00 Hermann Peifer :
>> >
>> > É mesmo: a qualidade dos dados do IBGE pode ser um problema.
>> >
>> > Acabei de abaixar todos os 1370 arquivos do RS com um total de 5 129 203
>> > endereços. Nemhum deles tem um acento e todos os nomes em letras
>> > maiúsculas :-( Alguns exemplos abaixo. Tambem já pensei no algoritmo
>> > Levenshtein, mas agora estou na dúvidas si vale a pena mesmo.
>> >
>> > Por outro lado: ainda acho que os "heat maps" poderiam fazer sentido,
>> > para ilustrar o estágio do mapeamento.
>> >
>>
>> O que eu faria neste caso é normalizar os dados de ambas as bases de
>> dados (OSM e IBGE) colocando tudo minúsculo e sem acentos.
>>
>> Me parece que os logradouros classificados como "rua" e "avenida" na
>> base do IBGE estão OK. Isto já cobre boa parte dos dados.
>>
>> Eu poderia ajudar com este projeto assim, que eu terminar com os mapas do
>> IBGE.
>>
>> []'s
>>
>> ___
>> Talk-br mailing list
>> Talk-br@openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Paulo Carvalho
Quando você diz "normalizar os dados", você diz para utilizar no seu
processamento?  Ou é para normalizar na base OSM?


Em 23 de março de 2014 09:30, Thiago Marcos P. Santos
escreveu:

> 2014-03-22 22:13 GMT+02:00 Hermann Peifer :
> >
> > É mesmo: a qualidade dos dados do IBGE pode ser um problema.
> >
> > Acabei de abaixar todos os 1370 arquivos do RS com um total de 5 129 203
> > endereços. Nemhum deles tem um acento e todos os nomes em letras
> > maiúsculas :-( Alguns exemplos abaixo. Tambem já pensei no algoritmo
> > Levenshtein, mas agora estou na dúvidas si vale a pena mesmo.
> >
> > Por outro lado: ainda acho que os "heat maps" poderiam fazer sentido,
> > para ilustrar o estágio do mapeamento.
> >
>
> O que eu faria neste caso é normalizar os dados de ambas as bases de
> dados (OSM e IBGE) colocando tudo minúsculo e sem acentos.
>
> Me parece que os logradouros classificados como "rua" e "avenida" na
> base do IBGE estão OK. Isto já cobre boa parte dos dados.
>
> Eu poderia ajudar com este projeto assim, que eu terminar com os mapas do
> IBGE.
>
> []'s
>
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Fwd: Re: Street name data

2014-03-23 Thread Thiago Marcos P. Santos
2014-03-22 22:13 GMT+02:00 Hermann Peifer :
>
> É mesmo: a qualidade dos dados do IBGE pode ser um problema.
>
> Acabei de abaixar todos os 1370 arquivos do RS com um total de 5 129 203
> endereços. Nemhum deles tem um acento e todos os nomes em letras
> maiúsculas :-( Alguns exemplos abaixo. Tambem já pensei no algoritmo
> Levenshtein, mas agora estou na dúvidas si vale a pena mesmo.
>
> Por outro lado: ainda acho que os "heat maps" poderiam fazer sentido,
> para ilustrar o estágio do mapeamento.
>

O que eu faria neste caso é normalizar os dados de ambas as bases de
dados (OSM e IBGE) colocando tudo minúsculo e sem acentos.

Me parece que os logradouros classificados como "rua" e "avenida" na
base do IBGE estão OK. Isto já cobre boa parte dos dados.

Eu poderia ajudar com este projeto assim, que eu terminar com os mapas do IBGE.

[]'s

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br


Re: [Talk-br] Mudança na URL da layer TMS do IBGE

2014-03-23 Thread Hélio Ricardo Pinheiro Coutinho
O interior do Rio de Janeiro ficaria muito agradecido com a sua inclusão... 
Está bem precário... Obr.

From: raffaellobr...@hotmail.com
To: talk-br@openstreetmap.org
Date: Sun, 23 Mar 2014 00:30:12 +
Subject: Re: [Talk-br] Mudança na URL da layer TMS do IBGE




Gostei da ordem alfabética, rsrs, porque estou mapeando em Alagoas.
Obrigado.


> From: tmpsan...@gmail.com
> Date: Thu, 20 Mar 2014 23:36:47 +0200
> To: talk-br@openstreetmap.org
> Subject: Re: [Talk-br] Mudança na URL da layer TMS do IBGE
> 
> Pessoal, anuncio que MG está completo.  Confesso que ficou legal
> demais de ser ver no mapa web, tem coisa demais para trabalhar. :)
> 
> Arrumei o problema de algumas cidades não aparecerem nos níveis de
> zoom mais distantes (se isto ainda acontecer com você na visualização
> web ou no JOSM, limpe o cache do seu browser e do JOSM). Havia também
> um problema com conurbações faltarem tiles onde elas se encontram que
> também foi resolvido.
> 
> Agora vou processar os estados restantes em ordem alfabética,
> começando portanto por AC, AL, etc...
> 
> Claro que a prioridade ainda é processar cidades que alguém queira
> trabalhar em cima. Podem me mandar uma lista de qualquer tamanho no
> formato:
> 
> UF;CODIGO
> 
> Exemplo:
> 
> SC;4204806
> PR;4106902
> DF;5300108
> ...
> 
> Não há mais restrição de tamanho de cidade, o script tá funcionando bem. :)
> 
> []'s
> 
> 2014-03-19 2:19 GMT+02:00 Thiago Marcos P. Santos :
> > Olá,
> >
> > Agora os tiles de todas as cidades já processadas estão em um lugar só:
> >
> > http://tiles.tmpsantos.com.br/v2/ibge/{zoom}/{x}/{y}.png
> >
> > Bem mais conveniente já que não precisa ficar adicionando uma nova
> > layer no JOSM para cada cidade. Porém, em zooms mais distantes, podem
> > aparecer "buracos" entre cidades próximas (i.e. veja BH, Contagem e
> > Betim). Quando eu terminar de processar todas as cidades, talvez eu
> > consiga resolver isso fazendo um merge mais inteligente dos arquivos
> > .mbtiles.
> >
> > Feedback é bem vindo.
> >
> > Br,
> 
> ___
> Talk-br mailing list
> Talk-br@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
  

___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br
  ___
Talk-br mailing list
Talk-br@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-br