Non je n'ai pas regardé la dernière analyse, je ne suis pas très à jour avec les outils proposés.
Je pense que pour distinguer ce qui est correct ou non d'une source ou de l'autre il faut passer par du cas mais que l'on peut amoindrir l'effort humain en définissant des règles syntaxiques (expressions régulières) afin de gérer des "La rue de" et "Rue de" ou "Mésanges" et "Rue des Mésanges" afin de diminuer l'effort humain et qu'il se concentre sur les "problèmes" du 4ème type. La part de distinction est petite par rapport à la volumétrie mais c'est toujours irritant et très impactant dans le jugement d'une source de données lorsque celle-ci comporte des fautes de reproduction, grammaire ou orthographe. Ce n'est pas une critique, juste un avis ;) Pour les fichiers CSV, j'ai importé d'un côté les données OSM, d'un autre mes données BANO et ai effectué des requêtes PostgreSQL pour le rapprochement. Sous PgAdmin le "copier" du résultat est sous format CSV. Les premières lignes de "différences" : Lati Longi BANO OSM 50.478027 2.258851 La Rue Guilbert Rue Guilbert 50.16838 3.881105 Rue de la Queue Noir Jean Rue de la Queue Noire Jean 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745565 3.104056 Avenue Ponthieux Avenue Ponthieu 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.735717 3.121181 Rue Jules Watteuw Rue Jules Watteeuw 50.586371 2.668816 La Rue des Lobes Rue des Lobes 50.482092 2.266353 La Rue des Fresnes Rue des Fresnes 50.477794 2.266416 La Rue du Moulin Rue du Moulin 50.579298 2.689841 La Rue de Saint Omer Rue de Saint-Omer 50.571286 2.697869 La Rue des Wirions Rue des Wirions 50.567841 2.733673 La Rue des Chavattes Rue des Chavattes 50.588666 2.697297 La Rue des Clabauts Rue des Clabauts 50.591284 2.697928 La Rue Picavet Rue Picavet 50.561432 2.706571 La Rue de Loisne Rue de Loisne 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.745894 3.13725 Rue de la Latte Rue de Latte 50.482092 2.266353 La Rue des Fresnes Rue des Fresnes 50.239255 2.441026 Au Chemin de Sombrin Chemin de Sombrin 50.36725 2.267188 La Chapelle De La Chapelle 50.591099 2.690511 La Rue du Rabat Rue du Rabat 50.567841 2.733673 La Rue des Chavattes Rue des Chavattes 50.586371 2.668816 La Rue des Lobes Rue des Lobes 50.638747 1.898124 Hameau de Dignopre Hameau de Dignopré 50.61245 1.740777 Route Nationale Route Nationale N°1 50.609524 1.74237 Route Nationale N°1 Route Nationale 50.600124 3.076128 Chemin des Margueritois Chemin des Margueritois / Chemin Rouge 50.27574 2.755416 La Rue de Fontaine Rue La Fontaine 50.26947 2.755188 La Rue Pasteur Rue Pasteur 2015-08-23 12:26 GMT+02:00 Christian Quest <cqu...@openstreetmap.fr>: > Le 23/08/2015 11:30, Aurélien .... a écrit : > > Bonjour, > > Je m'intéresse de près à la BANO pour le moment spécifiquement dans le > Nord-Pas-De-Calais et à coups de requêtes dans tous les sens et j'ai pu > sortir des "différences" entre les données BANO et les données OSM. > > > As tu regardé la dernière analyse Osmose que j'ai ajouté qui fait > justement le croisement BANO/OSM ? > > C'est une version "osmose" du rouge du rendu BANO, plus simple à utiliser > pour faire les corrections les unes après les autres. > > http://osmose.openstreetmap.fr/fr/errors/?item=7170 classes 30 à 33 > > > J'en ai catalogué différents types : > > 1) BANO : "La rue des Mésanges" - OSM : "Rue des mésanges" > 2) BANO : "L'Arbre de Guise" - OSM : "Rue de l'Arbre de Guise" > 3) BANO : "Rue de l'Escalier Royal" - OSM : "Escalier Royal" > > Ce n'est pas bien méchant mais peut-être que nous pouvons établir un > ensemble de règles syntaxiques afin de créer un process de correction > automatique ? > > > Et comment déterminer qui est correct ? Les données BANO issues du > cadastres peuvent comporter des erreurs... le cadastre n'est pas parfait et > n'est pas une source d'autorité (c'est uniquement la commune qui l'est). > > > Il y a un quatrième type de différence qui est plus inquiétant, le > résultat ressemble à ça : > > - BANO : "Rue de la Fontaine Al Tuerie" - OSM : "Rue de la Fontaine à > l'Tuerie" => hein est bien din ch'nord lô > - BANO : "Rue du Vieux Chemin de Fourmie"" - OSM : "Rue du Vieux Chemin de > Fourmies" > - BANO : "Rue Hector Sandrart" - OSM : "Rue Hector Sandrard" > - BANO : "Rue du Maréchal Leclerc" - OSM : "Rue du Maréchal Leclercq" > > > Certaines erreurs peuvent être éliminées en croisant avec encore plus de > données, typiquement sur les noms de personnes... Il n'y a pas de "Général > ou Maréchal Leclercq", Clemenceau ne comporte pas d'accent, etc... > > J'ai commencé à explorer cette piste, par l'extraction de tout les mots > uniques afin de créer un dictionnaire. Là aussi le dictionnaire aura besoin > d'être validé, le tout automatique me semble hasardeux. > > Il y a déjà un dictionnaire utilisé par l'analyse osmose sur les name, > mais on pourrait reduire encore plus celui-ci en le spécialisant. > > En tout le nombre de "différences" sur la région s'élève à 1137 (en > comptant les "faux positifs") sur 110.000 rues. > > Est-ce que ça vous intéresserait d'avoir un listing groupé par commune sur > l'ensemble de la métropole afin d'avoir une base supplémentaire de > nettoyage ? > > Si c'est le cas, comment puis-je vous transmettre des fichiers CSV ? > > Je continue mes investigation pour checker s'il n'y aurait pas des rues > présentes dans la BANO et absentes dans OSM. > > Pardon par avance s'il y a déjà des outils qui existent pour faire ça. > > A bientôt > > > > Comment procèdes-tu pour sortir ce CSV ? > > -- > Christian Quest - OpenStreetMap France > > > _______________________________________________ > Talk-fr mailing list > Talk-fr@openstreetmap.org > https://lists.openstreetmap.org/listinfo/talk-fr > >
_______________________________________________ Talk-fr mailing list Talk-fr@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-fr