Am 29.12.2010 08:36, schrieb Michael Lück:

Eine fehlerbehaftete Datenquelle zusammen mit den vielen, vielen verschiedenen 
Ausnahmen von der Regel macht eine Identifizierung fehlerhafter Daten sehr 
schwierig. Deshalb suchen wir auch nach weiteren Regeln mit denen wir solche 
finden können ohne zu viele false positives aufzunehmen, was die 
Korrekturarbeit viel schwieriger macht (vor allem macht das dann keinen Spaß, 
wenn man immer zu Elementen kommt die ja doch korrekt sind).

Zumindest deutlicher in Richtung "positive" kommst Du, wenn Du z.B. auf "Zahl mit Bindestrichen dazwischen" schaust, also "Hauptstraße 4-6" oder gar Satzzeichen. Oder aber wenn Du in den Umkreis schaust: Wenn es dort noch Hauptstraßen-Ways gibt, die jedoch ohne oder mit anderen Ziffern da stehen.

DAs kann man auch erweitern: Phonetisch ähnliche Straßen in direkter Nachbarschaft sind selten.
Es wird nie ein Meyerweg in einen Maierweg münden.
d.h. wenn Du eine phonetische Reduktion durchführst und dann die angrenzenden Wege vergleichst, das wird vermutlich viele Tippfehler finden.

Und dann könntest Du noch schauen, wie viele Du mit falscher Rechtschreibung findest. Bei getrennt geschriebenen Straßen ("Goethe Strasse") schau, ob es zum vorderen Bestanddteil vor [Strasse|Platz|Weg|Allee] einen Wikipedia-Artikel gibt, (ggf. auch als "xyz (Dichter)"), der in der Kategorie "Person" steht.
Dann ist es wahrscheinlich, dass das Leerzeichen "über" ist.
Also z.B. nicht "Mergenthaler Allee", sondern "Mergenthalerallee".

-jha-


_______________________________________________
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de

Antwort per Email an