Il 23/05/2012 20:06, Antonio Piepoli ha scritto:
Salve a tutti,

Ciao,
guarda io sono un hobbista (purtroppo),
mi sento di dire la mia, che sicuramente non passa per una analisi approfondita e per le metodologie avanzate di cui tu parli, e che (purtroppo) non conosco, ma magari ti puo' dare qualche spunto.. quindi prendila cosi' come' ed eventualmente cestina! :)

Io ho questo problema: ho N mittenti che spediscono ciascuno ad M destinatari, e non ho alcuna certezza che ogni volta la ragione sociale e l'indirizzo siano scritti nello stesso modo....anzi! ....un disastro :D Il problema e' riconoscere quando due o piu' spedizioni si riferiscono (leggi devono essere recapitate) allo stesso destinatario, anche se i mittenti sono diversi e le stringhe che definiscono ragione sociale, indirizzo, localita' etc sono scritte in modo diverso.

Io ho risolto in questo modo:
-prendo ciascun campo e mi ricavo lo slug;
-trovo la sottostringa massima comune degli slug che sto confrontando, per ciascun campo; -a questo punto se il valore percentuale della sottostringa rispetto allo slug supera per ciascun campo una soglia minima stabilita, i due destinatari sono lo stesso destinatario

Spero di non essere stato troppo contorto, ben accetti anche critiche e pareri.
Ciao diego

PS poi facci sapere come risolvi, che ci interessa!
_______________________________________________
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python

Rispondere a