Stavano scoccando le 21:47:10 di martedì 19/06/2018 quando Andrea Albani
inviò su gmane.comp.gis.openstreetmap.region.it queste parole :
Il giorno 19 giugno 2018 12:31, Lidrie <lid...@mesnews.net> ha scritto:
Sarebbe interessante anche poter estrarre solo il numero delle occorrenze
per ogni toponimo, in forma di lista. Suggerimenti?
Butto lì un metodo "quick&dirty":
a) scarica i dati da cui partire in formato pbf. Se ti interessa tutta
l'italia direi da [0]. Per iniziare da un set di dati più piccolo da [1].
Ad esempio prendiamo i dati di Milano e li salviamo in milano.pbf
b) scarica i tool osmconvert [2] e osmfilter [3]
c) converti il file in un formato più efficiente per osmfilter
osmconvert milano.pbf -o=milano.o5m
d) estrai le sole highway ad esempio solo le residential
osmfilter milano.o5m --drop-nodes --keep="highway=residential"
-o=milanohighway.o5m
oppure tutte
osmfilter milano.o5m --drop-nodes --keep="highway="
-o=milanohighway.o5m
e) estrai le statistiche sulle occorrenze
osmfilter milanohighway.o5m --out-key=name
Limiti:
- testato al volo su piccoli file. Npm ho idea dei tempi e delle risorse
necessarie per trattare ad esempio tutta l'Italia
- Via Molise e Viale Molise (ad esempio) appariranno come due elementi
differenti
- idem per quei nomi che possono essere scritti nei modi più disparati (Via
Cavour, Via Camillo Benso Cavour, Via Camillo Benso conte di Cavour, ...)
qui dovrò armarmi di pazienza, ma soprattutto di RegEx togliendo le parti
non significative: nomi comuni, articoli, parole minuscole, ordinando poi
per quel che rimane, puntando sul fatto che di solito è "Dante Alighieri"
e non "Alighieri Dante".
- come già indicato da Federico per esigenze tecniche la stessa strada può
essere divisa in diversi tratti distinti e ognuno concorrerà al conteggio.
Probabilmente considerando un perimetro ampio come l'Italia questo errore
incide poco sul totale
qui dovrebbe bastare contare una sola occorrenza per ogni comune. Se due
comuni contigui hanno una strada (sia la stessa fisica, o due diverse)
dedicate allo stesso personaggio, per me valgono due occorrenze.
Per quanto riguarda la parte difficile, ovvero geolocalizzare i nomi, la
vedo, senza entrare troppo in dettagli tecnici, un po' più complicata.
non devo fare una fotografia totale di tutti i nomi presenti in Italia, ma
partendo da singoli campioni scelti vedere la distribuzione caso per caso.
in questo può bastare l'overpass suggerito da Federico. Casomai cercherò
un modo di colorare diversamente due query per sovrapporle.
Grazie ad entrambi.
--
Sans
_______________________________________________
Talk-it mailing list
Talk-it@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-it