Il giorno 17 aprile 2018 14:16, Andrea Musuruane <musur...@gmail.com> ha scritto:
> Giocando con awk e grep (la sintassi della regexp è leggermente > differente) si possono vedere i valori che vengono estratti: > awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep -E > '.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+ > ([[:digit:]]{5})' > > e quelli che vengono scartati: > awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep *-v* -E > '.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+([[:digit:]]{5})' > > > I falsi positivi sono proprio pochi (la regola cerca di scartare tutti gli > indirizzi che non hanno numero civico e cap), soprattutto considerando il > marasma che c'è nei dati sorgente. > E' con malcelata invidia che applaudo Andrea, ora meglio noto come Gran Visir delle regexp :-) Mi son permesso di contare le linee generate dai due comandi e vien fuori che 10960 sono "indirizzabili", contro le 9940 incasinate. Credo che al primo aggiornamento post-import ci metteremo pure gli addr!
_______________________________________________ Talk-it mailing list Talk-it@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-it