On Mon 2012-03-12 (00:56), Michael Bemmerl wrote: > > Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche > > Überraschungen dort noch warten. > > Richtig, in der Datenbank ist Mischmasch zwischen ISO-8819-x und UTF-8. > Beispiel ID 7: "Châteaugiron". Das â ist als 0xE2 in der DB, wäre als > UTF-8 aber 0xC3 0xA2.
Und noch schlimmer, der zugehörige Großbuchstabe wäre 0xC2, ein weit verbreiteter UTF-8-"Präfix". Sehe ich das richtig, daß die DB mehr oder weniger read-only ist, dieser Mischmasch also bis in alle Ewigkeit bleibt? Ein einzelnes Byte >=0x80 ließe sich ja u.U. noch erkennen (und mit ein wenig Hintergrund, der die Zuordnung der Codierung erlaubt, auch automatisch korrekt nach UTF-8 wandeln), aber was ist mit aufeinanderfolgenden solchen Zeichen ("äß", etc, s.o.)? Andererseits: OSB ist doch nicht das einzige Projekt, das diese Daten nutzt? Wie machen das die anderen? S _______________________________________________ Talk-de mailing list Talk-de@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-de