Ciao, 2018-04-17 10:51 GMT+02:00 Cascafico Giovanni <cascaf...@gmail.com>:
> Il giorno 28 marzo 2018 11:46, Andrea Musuruane <musur...@gmail.com> ha > scritto: > >> Nel file description viene messo l'indirizzo. Sarebbe meglio riuscire a >>>> metterlo in addr:street e addr:housenumber (per quelli che hanno un numero >>>> civico, per gli altri l'informazione mi sembra inutile). >>>> >>> >>> Onestamente non saprei come processare la stringa... l'unica certezza di >>> questo campo è il codice postale alla fine. La ho assegnata a description, >>> pensando che il mappatore occasionale possa eventualemnte aggiungere il >>> civico manualmente. Anche il no rari riferimenti kilometrici (p.es. "Ss >>> 356 Km 45+5112") potrebbero essere utili per mettere qualche milestone, >>> seppure mi pare siano relegate ad ogetti historic. >>> >> >> Si può fare in questo modo. >> >> Estrai tre valori dalla stringa in base alla seguente espressione >> regolare: >> (.*),*\s+(\d+\/*\w*),*\s+(\d{5}) >> >> Se l'espressione regolare non è soddisfatta si scarta la stringa. >> > > Ho applicato al regexp in qgis (necessario anteporre un ulteriore > backslash ad ogni backslash) > regexp_substr ("Indirizzo", '(.*),*\\s+(\\d+\\/*\w*),*\s+(\\d{5})' ) > > ed estrae il nome strada per circa metà dei record. Speriamo che il modulo > online che il MISE sta pubblicando per i gestori ci semplichi la vita :-) > Giocando con awk e grep (la sintassi della regexp è leggermente differente) si possono vedere i valori che vengono estratti: awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep -E '.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+([[:digit:]]{5})' e quelli che vengono scartati: awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep *-v* -E '.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+([[:digit:]]{5})' I falsi positivi sono proprio pochi (la regola cerca di scartare tutti gli indirizzi che non hanno numero civico e cap), soprattutto considerando il marasma che c'è nei dati sorgente. Concordo comunque sull'auspicio che i dati debbano essere standardizzati alla fonte. Ciao, Andrea
_______________________________________________ Talk-it mailing list Talk-it@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-it