Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Ho notato c'è un problema con le strade che si trovano al confine di un altro comune, superato il quale tale strada cambia nome. A Roma c'è questo caso: http://www.openstreetmap.org/#map=16/42.0608/12.4654 La strada nel territorio di Roma Capitale è denominata Via Mapello, mentre nel comune di Sacrofano è denominata Via Monte Cannelliere. le due strade sono unite tra di loro con un nodo, nodo che unisce anche la way di confine tra i due comuni. Il problema è che Via Monte Cannelliere risulta nel dizionario di controllo ortografico di Roma, quando dovrebbe comparire solo in quello di Sacrofano. Davide -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5778678.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
2013/9/9 Davio: PS: dici che se alzi il limite a 16000 va in time out? dipende da quanto traffico c'è sugli altri domini che ci sono sul server web condiviso, quindi dipende anche dall'ora del giorno, comunque ora funziona (74 da controllare su 15137), se va in timeout basta riprovare dopo qualche secondo e comunque non dovrebbe succedere più per città diverse da Roma -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Sembra andare, grazie. In questo modo posso controllare quei pochi nomi sospetti su tutti i toponimi inseriti. Davide -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5776807.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Dopo gli ultimi aggiornamenti a Roma che sembra non ci sia più nulla da controllare :D http://www.forsi.it/osm/spellcheck/highway/boundary/Roma Davide -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5776702.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
2013/9/8 Davio: Dopo gli ultimi aggiornamenti a Roma che sembra non ci sia più nulla da controllare :D http://www.forsi.it/osm/spellcheck/highway/boundary/Roma qualcuno ha confermato tutti i nomi? visto che recentemente ho velocizzato la query che rischiava di andare in timeout, ora ho raddoppiato il limite a 8000 righe, quindi c'è di nuovo qualche nome da controllare ;-) Roma è l'unica città che ha più di 4000 nomi, mi risultano 15137 nomi diversi -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Sì, il numero di toponimi esistenti è più o meno quello, mentre sommando quelli soppressi arriviamo a quota 2 esatti https://www.comune.roma.it/servizi/SITOWPS/dettaglioAreaCircolazione.do?codiceVia=2 Attualmente questo è il ventimillesimo toponimo, e nonché il più recente per istituzione del territorio di Roma Davide -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5776775.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
PS: dici che se alzi il limite a 16000 va in time out? Davide -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5776776.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il 04 settembre 2013 10:07, Tiziano D'Angelo ha scritto: ci sarebbe anche Rivetta l'ho aggiunta nei dati in linea da ieri e ho tolto la doppia T a sotoportego e rugheta come segnalato da Paolo parole simili nei dati del catasto (non so a quali città si riferiscono perché li ho messi tutti insieme) sono: RUGHET RUGHETTA RIVET RIVETTA SOTOPORTEGO -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Ma come si fa a segnalare il valore corretto per quei dati? -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5776138.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il 02 settembre 2013 16:42, Edoardo Yossef Marascalchi ha scritto: Aggiungo ancora: Riviera Sottoportego (mi pareva te l'avessero già segnalato) Fondamenta Fondamente aggiunti tutti per il prossimo aggiornamento per Sottoportego Luca 'remix_tj' Lorenzetto era in dubbio, comunque non è un problema aggiungere o togliere parole in questa lista perché non si perdono dati -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il 03 settembre 2013 18:29, bredy ha scritto: Ma come si fa a segnalare il valore corretto per quei dati? se ci sono errori, con Remote Control per JOSM e Merkaartor usi il link nella prima colonna e li correggi direttamente in OSM invece per dire che certe parole sono giuste, usi la tendina, non scompaiono automaticamente così puoi cambiare idea, devi aggiornare la pagina (ma c'è un bug per cui non si riesce a segnalare quali sono errori) e per altre cose devi dire a me qui in lista o in privato, ad esempio se ci sono dei nomi che secondo il programma sono sbagliati, ma sai che sono giusti e li vuoi far scomparire, ora ho aggiunto una tabella di eccezioni -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il 02 settembre 2013 07:40, Luca Delucchi ha scritto: Il giorno 02/set/2013 01:18, Davio davide@gmail.com ha scritto: Per quanto riguarda Roma, come identificativo di una strada vanno aggiunti anche Porto, Quadrato, e Ripa, presenti nella toponomastica ufficiale. Per quanto riguarda Genova ci sarebbe da aggiungere Crosa Grazie aggiunte tutte e 4, grazie -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Ho applicato le nuove parole (ora sono 179) ai dati vecchi così ho fatto un po' di pulizia a Venezia: Genova: da 48 a 46 Milano: da 30 a 28 Venezia: da 476 a 333 e da ora in poi se volete mi potete dire quali parole singole sono giuste, le aggiungerò manualmente a una tabella (ora c'è solo Carrobbio) -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Per venezia puoi aggiungere anche Campazzo e Ghetto Il giorno 02 settembre 2013 17:33, Daniele Forsi dfo...@gmail.com ha scritto: Ho applicato le nuove parole (ora sono 179) ai dati vecchi così ho fatto un po' di pulizia a Venezia: Genova: da 48 a 46 Milano: da 30 a 28 Venezia: da 476 a 333 e da ora in poi se volete mi potete dire quali parole singole sono giuste, le aggiungerò manualmente a una tabella (ora c'è solo Carrobbio) -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it -- Edoardo Yossef Marascalchi skype: asca_edom ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Aggiungo ancora: Riviera Sottoportego (mi pareva te l'avessero già segnalato) Fondamenta Fondamente Il giorno 02 settembre 2013 17:40, Edoardo Yossef Marascalchi e.marascal...@gmail.com ha scritto: Per venezia puoi aggiungere anche Campazzo e Ghetto Il giorno 02 settembre 2013 17:33, Daniele Forsi dfo...@gmail.com ha scritto: Ho applicato le nuove parole (ora sono 179) ai dati vecchi così ho fatto un po' di pulizia a Venezia: Genova: da 48 a 46 Milano: da 30 a 28 Venezia: da 476 a 333 e da ora in poi se volete mi potete dire quali parole singole sono giuste, le aggiungerò manualmente a una tabella (ora c'è solo Carrobbio) -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it -- Edoardo Yossef Marascalchi skype: asca_edom -- Edoardo Yossef Marascalchi skype: asca_edom ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
[Talk-it] Nuovo dizionario per il controllo ortografico
Buongiorno lista, dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i nomi delle strade italiane per creare un nuovo dizionario per il correttore ortografico. Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi da oltre 40.000 parole sconosciute a meno di 10.000, trovate un confronto per i capoluoghi di Regione in [3], il caso più eclatante è Roma che è passata da 2776 a 107 parole sconosciute! Aspetti positivi: * ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari che ho usato finora hanno 22410 parole in quello predefinito e 75131 in quelli creati a partire dai dati OSM) * ho scartato solo 1795 parole (ad esempio quelle che contengono numeri arabi) Aspetti negativi: * i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare come errore i nomi propri con l'iniziale minuscola o le parole tutte in maiuscolo * i dati contengono errori evidenti che possono essere filtrati automaticamente (come 0VIDIO dove l'iniziale è uno zero invece che una O) però rimane il dubbio di quanti errori nascosti ci siano * non è possibile usare le parole con la E accentata perché nei dati c'è l'apice quindi non è possibile distinguere l'accento acuto da quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò solo le parole accentate) * dai dati sono escluse le province di Bolzano e Trento perché sono dati per il catasto In definitiva questi dati sono utili per eliminare un gran numero di falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto che gli stessi errori NON siano stati commessi anche da chi ha scritto questi dati... [1] http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html [2] http://www.forsi.it/osm/spellcheck/highway/boundary/ [3] http://www.forsi.it/node/135 -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il giorno 01 settembre 2013 11:55, Daniele Forsi dfo...@gmail.com ha scritto: Buongiorno lista, dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i nomi delle strade italiane per creare un nuovo dizionario per il correttore ortografico. Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi da oltre 40.000 parole sconosciute a meno di 10.000, trovate un confronto per i capoluoghi di Regione in [3], il caso più eclatante è Roma che è passata da 2776 a 107 parole sconosciute! Aspetti positivi: * ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari che ho usato finora hanno 22410 parole in quello predefinito e 75131 in quelli creati a partire dai dati OSM) * ho scartato solo 1795 parole (ad esempio quelle che contengono numeri arabi) Aspetti negativi: * i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare come errore i nomi propri con l'iniziale minuscola o le parole tutte in maiuscolo * i dati contengono errori evidenti che possono essere filtrati automaticamente (come 0VIDIO dove l'iniziale è uno zero invece che una O) però rimane il dubbio di quanti errori nascosti ci siano * non è possibile usare le parole con la E accentata perché nei dati c'è l'apice quindi non è possibile distinguere l'accento acuto da quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò solo le parole accentate) * dai dati sono escluse le province di Bolzano e Trento perché sono dati per il catasto In definitiva questi dati sono utili per eliminare un gran numero di falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto che gli stessi errori NON siano stati commessi anche da chi ha scritto questi dati... [1] http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html [2] http://www.forsi.it/osm/spellcheck/highway/boundary/ [3] http://www.forsi.it/node/135 -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il giorno 01 settembre 2013 11:55, Daniele Forsi dfo...@gmail.com ha scritto: In definitiva questi dati sono utili per eliminare un gran numero di falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto che gli stessi errori NON siano stati commessi anche da chi ha scritto questi dati... Ottimo lavoro! So che non è legato al controllo ortografico, ma mi sono chiesto: pensi sia possibile generare un elenco delle vie mancanti (o presunte tali) di un Comune presenti nel database ma non in OSM? Buona giornata, Frafra p.s. Scusate per la mail vuota che ho inviato poco fa; mi s'era bloccato un attimo il programma ed è partito un doppio click ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
2013/9/1 Daniele Forsi dfo...@gmail.com Buongiorno lista, dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i nomi delle strade italiane per creare un nuovo dizionario per il correttore ortografico. Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi da oltre 40.000 parole sconosciute a meno di 10.000, trovate un confronto per i capoluoghi di Regione in [3], il caso più eclatante è Roma che è passata da 2776 a 107 parole sconosciute! [cut] Ottimo lavoro :-) vorrei solo fare una piccola annotazione per il caso particolare di venezia, che riporta moltissimi errori del tipo Non inizia con Via, Piazza, ecc.: per il caso di venezia andrebbero inserite le possibilità di considerare anche le parole: - calle - campo - campiello - rio terà - ruga - rughetta - ramo - sotoportego (su sottoportego ho un dubbio) - fondamenta - salizada - fontego - lista Per informazioni: http://www.innvenice.com/Toponomastica-Venezia.htm Ciao ciao Luca -- E' assurdo impiegare gli uomini di intelligenza eccellente per fare calcoli che potrebbero essere affidati a chiunque se si usassero delle macchine Gottfried Wilhelm von Leibnitz, Filosofo e Matematico (1646-1716) Internet è la più grande biblioteca del mondo. Ma il problema è che i libri sono tutti sparsi sul pavimento John Allen Paulos, Matematico (1945-vivente) Luca 'remix_tj' Lorenzetto, http://www.remixtj.net , lorenzetto.l...@gmail.com ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il 01 settembre 2013 12:09, Francesco Frassinelli ha scritto: Ottimo lavoro! grazie So che non è legato al controllo ortografico, ma mi sono chiesto: pensi sia possibile generare un elenco delle vie mancanti (o presunte tali) di un Comune presenti nel database ma non in OSM? sì, l'ho fatto per qualche Comune che ha pubblicato dati open, cerca Confronto stradari comunali in http://www.forsi.it/osm/ ma devo riscriverlo completamente per farlo per tutti i Comuni -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Usando l'elenco vie dei database catastali ho notato che ci sono parecchi errori rispetto alle vie reali, naturalmente mi baso su pochi dati avendo consultato un solo comune attualmente. -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5775789.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il 01 settembre 2013 12:12, Luca 'remix_tj' Lorenzetto ha scritto: Ottimo lavoro :-) grazie vorrei solo fare una piccola annotazione per il caso particolare di venezia, che riporta moltissimi errori del tipo Non inizia con Via, Piazza, ecc.: per il caso di venezia andrebbero inserite le possibilità di considerare anche le parole: - calle - campo - campiello - rio terà - ruga - rughetta - ramo - sotoportego (su sottoportego ho un dubbio) - fondamenta - salizada - fontego - lista ho aggiunto queste parole che mancavano (ma saranno corrette solo al prossimo aggiornamento), le altre c'erano: ruga rughetta ramo fontego lista ora il programma accetta 175 DUG, ma nel sito dell'Agenzia c'è un file DUG_05042012.csv con 699 DUG che non ho ancora considerato, potrebbe essere l'elenco definitivo di parole, però non c'è né sotoportego né sottoportego, le parole più simili sono: $ grep -E PORT.+O DUG_05042012.csv 144;PORTICO 204;SOTTOPORTICO 218;SUPPORTICO 229;SOPPORTICO 473;PORTICATO 474;PORTICCIOLO 990;PORTEGO -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il 01 settembre 2013 15:45, bredy ha scritto: Usando l'elenco vie dei database catastali ho notato che ci sono parecchi errori rispetto alle vie reali, naturalmente mi baso su pochi dati avendo consultato un solo comune attualmente. sì, possono esserci nomi completamente sbagliati e ci sono sicuramente errori di battitura ma per questi ultimi il procedimento è reversibile, cioè possiamo usare i dati OSM per individuare i dati del Catasto che potrebbero essere errati, OpenCatastoBugs ;-) e per fare questo nelle mie pagine abbiamo dei dati più affidabili di un semplice elenco di parole perché sappiamo quali nomi sono stati controllati almeno una volta dopo essere stati inseriti -- Daniele Forsi ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Per quanto riguarda Roma, come identificativo di una strada vanno aggiunti anche Porto, Quadrato, e Ripa, presenti nella toponomastica ufficiale. https://www.comune.roma.it/servizi/SITOWPS/dettaglioAreaCircolazione.do?codiceVia=9352 https://www.comune.roma.it/servizi/SITOWPS/dettaglioAreaCircolazione.do?codiceVia=6738 https://www.comune.roma.it/servizi/SITOWPS/dettaglioAreaCircolazione.do?codiceVia=3036 Davide -- View this message in context: http://gis.19327.n5.nabble.com/Nuovo-dizionario-per-il-controllo-ortografico-tp5775768p5775847.html Sent from the Italy General mailing list archive at Nabble.com. ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it
Re: [Talk-it] Nuovo dizionario per il controllo ortografico
Il giorno 02/set/2013 01:18, Davio davide@gmail.com ha scritto: Per quanto riguarda Roma, come identificativo di una strada vanno aggiunti anche Porto, Quadrato, e Ripa, presenti nella toponomastica ufficiale. Per quanto riguarda Genova ci sarebbe da aggiungere Crosa Grazie Davide Ciao Luca ___ Talk-it mailing list Talk-it@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-it