Stavano scoccando le 21:47:10 di martedì 19/06/2018 quando Andrea Albani inviò su gmane.comp.gis.openstreetmap.region.it queste parole :

Il giorno 19 giugno 2018 12:31, Lidrie <lid...@mesnews.net> ha scritto:


Sarebbe interessante anche poter estrarre solo il numero delle occorrenze
per ogni toponimo, in forma di lista. Suggerimenti?


Butto lì un metodo "quick&dirty":
a) scarica i dati da cui partire in formato pbf. Se ti interessa tutta
l'italia direi da [0]. Per iniziare da un set di dati più piccolo da [1].
Ad esempio prendiamo i dati di Milano e li salviamo in milano.pbf
b) scarica i tool osmconvert [2] e osmfilter [3]
c) converti il file in un formato più efficiente per osmfilter

       osmconvert milano.pbf -o=milano.o5m

d) estrai le sole highway ad esempio solo le residential

     osmfilter milano.o5m --drop-nodes --keep="highway=residential"
-o=milanohighway.o5m

oppure tutte

      osmfilter milano.o5m --drop-nodes --keep="highway="
-o=milanohighway.o5m

e) estrai le statistiche sulle occorrenze

      osmfilter milanohighway.o5m --out-key=name

Limiti:
- testato al volo su piccoli file. Npm ho idea dei tempi e delle risorse
necessarie per trattare ad esempio tutta l'Italia
- Via Molise e Viale Molise (ad esempio) appariranno come due elementi
differenti
- idem per quei nomi che possono essere scritti nei modi più disparati (Via
Cavour, Via Camillo Benso Cavour, Via Camillo Benso conte di Cavour, ...)

qui dovrò armarmi di pazienza, ma soprattutto di RegEx togliendo le parti non significative: nomi comuni, articoli, parole minuscole, ordinando poi per quel che rimane, puntando sul fatto che di solito è "Dante Alighieri" e non "Alighieri Dante".

- come già indicato da Federico per esigenze tecniche la stessa strada può
essere divisa in diversi tratti distinti e ognuno concorrerà al conteggio.
Probabilmente considerando un perimetro ampio come l'Italia questo errore
incide poco sul totale

qui dovrebbe bastare contare una sola occorrenza per ogni comune. Se due comuni contigui hanno una strada (sia la stessa fisica, o due diverse) dedicate allo stesso personaggio, per me valgono due occorrenze.

Per quanto riguarda la parte difficile, ovvero geolocalizzare i nomi, la
vedo, senza entrare troppo in dettagli tecnici, un po' più complicata.

non devo fare una fotografia totale di tutti i nomi presenti in Italia, ma partendo da singoli campioni scelti vedere la distribuzione caso per caso. in questo può bastare l'overpass suggerito da Federico. Casomai cercherò un modo di colorare diversamente due query per sovrapporle.

Grazie ad entrambi.

--
Sans


_______________________________________________
Talk-it mailing list
Talk-it@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-it

Rispondere a