On Mon 2012-03-12 (00:56), Michael Bemmerl wrote:
> > Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche 
> > Überraschungen dort noch warten.
> 
> Richtig, in der Datenbank ist Mischmasch zwischen ISO-8819-x und UTF-8.
> Beispiel ID 7: "Châteaugiron". Das â ist als 0xE2 in der DB, wäre als
> UTF-8 aber 0xC3 0xA2.

Und noch schlimmer, der zugehörige Großbuchstabe wäre 0xC2, ein weit
verbreiteter UTF-8-"Präfix".

Sehe ich das richtig, daß die DB mehr oder weniger read-only ist, dieser
Mischmasch also bis in alle Ewigkeit bleibt?

Ein einzelnes Byte >=0x80 ließe sich ja u.U. noch erkennen (und mit ein
wenig Hintergrund, der die Zuordnung der Codierung erlaubt, auch automatisch
korrekt nach UTF-8 wandeln), aber was ist mit aufeinanderfolgenden solchen
Zeichen ("äß", etc, s.o.)? 
Andererseits: OSB ist doch nicht das einzige Projekt, das diese Daten nutzt?
Wie machen das die anderen?

S


_______________________________________________
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de

Antwort per Email an