Le mercredi 16 décembre 2009 13:28:02, f.rodr...@free.fr a écrit :
> L'algo utilisé n'est pas le soundex original. C'est l'algorithme soundex2
>  en version française. Le double metaphone de postgres donne un résultat
>  sur 4 caractère, trop cours. Une autre possibilité est le metaphone
>  (simple) qui donne un résultat de longueur variable, mais j'y ai préfère
>  le soundex2.
> 
> http://osmose.openstreetmap.fr/src/analyser_gis_soundex.py
> 
> Le principe :
> - Calcule le soundex2 pour les parties du name (contenant un espace pour
>  les quels la taille est au moins de 3+4 et qui ne ressemble pas à des
>  références). - Compte les soundex2.
> - Calcule la fréquence d'apparition de la typographie pour un soundex2 (en
> pourcentage, pour les soundex2 présent au moins 20 fois).
> - Si un soundex2 est typographié à plus de 80% de la même façon (forme
>  forte) alors propose de remplacer les typographies faibles (<20%) (pour
>  les quels la distance de levenshtein<=2)
> 
> Soundex2 :
>  http://www-lium.univ-lemans.fr/~carlier/recherche/soundex.html#L3 Distance
>  de Levenshtein : http://fr.wikipedia.org/wiki/Distance_de_Levenshtein
> 
> Par contre il y a effectivement beaucoup de faux positifs qui sont en
>  grande partie des problèmes de case ou de "-". Il faudrait peut être
>  retirer ces résultats et laisser ces problèmes à d'autres plug-in
>  (toponymie...).
> 
> Fred

Voila le backend est patché pour ne pas tenir compte de la case et des 
différences de tirets et longueur minimale d'analyse de la seconde partie du 
name est de 7 caractères. Ce qui enlève beaucoup de (faut) bruit.

Le résultat est déjà disponible.

_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-fr

Reply via email to