Am 29.12.2010 08:36, schrieb Michael Lück:
Eine fehlerbehaftete Datenquelle zusammen mit den vielen, vielen verschiedenen
Ausnahmen von der Regel macht eine Identifizierung fehlerhafter Daten sehr
schwierig. Deshalb suchen wir auch nach weiteren Regeln mit denen wir solche
finden können ohne zu viele false positives aufzunehmen, was die
Korrekturarbeit viel schwieriger macht (vor allem macht das dann keinen Spaß,
wenn man immer zu Elementen kommt die ja doch korrekt sind).
Zumindest deutlicher in Richtung "positive" kommst Du, wenn Du z.B. auf
"Zahl mit Bindestrichen dazwischen" schaust, also "Hauptstraße 4-6" oder
gar Satzzeichen.
Oder aber wenn Du in den Umkreis schaust: Wenn es dort noch
Hauptstraßen-Ways gibt, die jedoch ohne oder mit anderen Ziffern da stehen.
DAs kann man auch erweitern: Phonetisch ähnliche Straßen in direkter
Nachbarschaft sind selten.
Es wird nie ein Meyerweg in einen Maierweg münden.
d.h. wenn Du eine phonetische Reduktion durchführst und dann die
angrenzenden Wege vergleichst, das wird vermutlich viele Tippfehler finden.
Und dann könntest Du noch schauen, wie viele Du mit falscher
Rechtschreibung findest.
Bei getrennt geschriebenen Straßen ("Goethe Strasse") schau, ob es zum
vorderen Bestanddteil vor [Strasse|Platz|Weg|Allee] einen
Wikipedia-Artikel gibt, (ggf. auch als "xyz (Dichter)"), der in der
Kategorie "Person" steht.
Dann ist es wahrscheinlich, dass das Leerzeichen "über" ist.
Also z.B. nicht "Mergenthaler Allee", sondern "Mergenthalerallee".
-jha-
_______________________________________________
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de