Peut-être que l'outil de validation pourrait faire un test minimal sur
la validité de codage chaque chaîne (possible au moins pour l'UTF-8).
En cas de violation une analyse de probabilité: en France ça doit être
de l'ISO 8859-1 ou du CP-850 et les changements d'interprétation sont
certainement le plus souvent sur des lettres accentuées très courantes
dans la toponymie (é, è, à, ê, î) et une base de mots fréquents
(allée, église, cimetière, hôpital, dépôt, etc.) ou polygrammes finals
de mots fréquents (/.*ées?/, /.*ères?/, etc.)  doit pouvoir remédier à
l'ambiguité pour tenter une réparation automatique, mais dans tous les
cas ne laisser aucun encodage invalide et au minimum considérer que la
source est du Windows-1252, et en dernier lieu du CP850 (presque tout
les octets sont valides hors des contrôles C0), avant de convertir en
UTF-8, afin de laisser ces caractères visibles distinctement (même si
c'est encore du "mojibake") afin que le correcteur humain puisse s'en
apercevoir (qui sait si une source n'a pas utilisé par erreur lors de
la saisie un autre codage moins probable comme un jeu latin d'Europe
centrale en ISO ou page de code Windows ou OEM, ou a fait une erreur
d'utilisation dans un outil d'export ou une base intermédiaire)

Dans tous les cas, un journal de signalement devrait être réalisé pour
permettre au minimum un contrôle humain et une validation et un retour
d'informations vers la source de ces données boguées (toutes les
sources font des erreurs, même OSM lui-même, via des contributeurs
internationaux qui utilisent nativement divers claviers et langues et
des logiciels obsolètes ou mal configurés).



Le mer. 25 mars 2020 à 18:11, Frédéric Rodrigo
<fred.rodr...@gmail.com> a écrit :
>
> Le 25/03/2020 à 17:27, Yves P. a écrit :
> > Bonjour,
> >
> > Je viens de regarder le résultat de la dernière PR.
> > Ici
> > <http://osmose.openstreetmap.fr/fr/map/#zoom=12&lat=46.6952&lon=5.0938&item=8330%2C8331%2C8340%2C8341%2C8350%2C8351&level=1%2C2%2C3&tags=&fixable=>les
> > localisations ne correspondent pas du tout aux adresses.
>
> Ce sont les positions du fichier proposée en opendata. C'est bien pour
> ça que l'on passe par de l'intégration manuelle.
>
>
> >
> > Les accents sont aussi manquants (champ subtitle):
>
> C'est donc que l'encodage n'est toujours pas bon. Il y a peut être
> plusieurs encodage dans le fichier.
>
>
>
> _______________________________________________
> Talk-fr mailing list
> Talk-fr@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-fr

_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr

Répondre à