Michael Heydekamp <[EMAIL PROTECTED]> wrote on 14.07.04: > Joachim Merkel <[EMAIL PROTECTED]> wrote on 11.07.04:
>> Die ZConnectler bekommen das UTF-8 (mit und ohne CTE base64) nicht >> decodiert ins Haus. > Da kann Helmut in dem Fall aber nix dran machen, er hatte einen > Ausschnitt aus einer Filterregel von CS gepostet. Und CS benutzt so > komische CP437-Zeichen wie Omega in seinen Filterregeln, da > entscheidet sich OpenXP eben - und wie ich meine, korrekt - f�r UTF-8. Ich beziehe die FreeXP-Foren - mehr aus Jux bzw. zum Testen - ja parallel auch noch �ber einen Point bei CvB im FTN-Format. Da f�llt mir in diesem Zusammenhang folgendes auf: 1. Mit UTF-8 kann das Fido-Gate ebenfalls nix anfangen, es konvertiert diese Zeichen zu Fragezeichen. Ob es base64-codierte Texte decodieren w�rde, wei� ich nicht, die Nachricht lag jedenfalls in 8bit vor. 2. Mit Windows-1254 deklarierte Headerzeilen (siehe Spam mit dem Subject "Behinderten Ferien Suedt�rkei") werden nicht decodiert/konvertiert, das Subject wird "as is" in codierter Form durchgereicht. Der ebenfalls als Windows-1254 deklarierte Body wurde hingegen und komischerweise korrekt nach CP437 (oder CP850, das ist nicht erkennbar) konvertiert. Aber das kann auch daran liegen, da� das Gate sich gar nicht f�r die Charset-Deklaration des Body interessiert und einfach von ISO-8859-1 ausgeht. Die 8bit-Zeichen, die in der Mail konkret verwendet wurden (normale deutsche Umlaute), liegen in ISO-8859-1 und Windows-1254 an derselben Position. 3. Als ISO-8859-1 deklarierte Header werden decodiert, aber (teilweise) nicht konvertiert. Aus... > Subject: =?iso-8859-1?q?Divulga=E7=E3o_por_e-mail__http=3A//www=2Edivulga?= > =?iso-8859-1?q?mail=2Evze=2Ecom?= ... wird: > Divulgatpo por e-mail http://www.divulgamail.vze.com ^^ Wobei es sich beim viert- und drittletzten Zeichen in "Divulgatpo" um das griechische "tau" (#231 in CP437) und "pi" (#227 in CP437 handelt), aber die werden ausgehend eben nach "t" und "p" konvertiert, deshalb wird man sie in dieser Nachricht nicht als solche sehen k�nnen. Bei #231 und #227 handelt es sich aber exakt um die codierten Zeichen- werte E7 und E3 in ISO-8859-1 - es fand also gar keine Konvertierung statt. E7 in ISO1 ist das Zeichen "�" (kleines "c" mit Cedille, #135 in CP437) und E3 in ISO1 ist das in CP437 nicht existierende kleine "a" mit Tilde, das der UUZ folgerichtig in ein "a" konvertieren w�rde, so da� bei einer korrekten Konvertierung nach CP437 am Ende rausk�me: "Divulga�ao" statt "Divulgatpo" Diese falsche (Nicht-)Konvertierung findet interessanterweise und im Unterschied zum obigen Fall hier auch im Body statt. - Bei anderen Nachrichten, deren Header als ISO-8859-1 deklariert sind und die deutsche Umlaute enthalten, wird hingegen sowohl korrekt decodiert als auch korrekt konvertiert. Es sieht also danach aus, als n�hme das Fido-Gate in Headern und Body eine Konvertierung ausschlie�lich von deutschen Umlauten (und evtl. noch ein paar anderen Zeichen?) vor, w�hrend es bestimmte Zeichen gar nicht konvertiert. Bei bestimmten Zeichens�tzen wie Windows-1254 werden Header erst gar nicht decodiert (und demzufolge auch nicht konvertiert), w�hrend bei Bodies, die in genau demselben Zeichensatz vorliegen, zwar konvertiert, vermutlich aber immer von ISO-8859-1 ausgegangen wird. Dies erstmal nur zur Dokumentation. Ich wei� nicht, ob Christian damit etwas anfangen oder es irgendwie beeinflussen kann (oder die Infos mal an den Entwickler von WaterGate weiterleiten will). Ich habe die entsprechenden RFC-Mails mal aus dem mbox-File der Mailingliste extrahiert und h�nge in der nachfolgenden Nachricht (die einen direkten Bezug zu dieser hat, also einfach "#" dr�cken) convert.zip an, das folgende Files enth�lt: M0001.MSG - RFC-Mail (UTF-8) aus Punkt 1. oben M0002.MSG - RFC-Mail (Windows-1254) aus Punkt 2. oben M0002.MSG - RFC-Mail (ISO-8859-1) aus Punkt 3. oben UUZ.PUF - die vom UUZ daraus erzeugten ZC-Puffer FIDO.PUF - die vom Fido-Gate daraus erzeugten ZC-Puffer Was ich leider nicht mehr habe, sind die originalen Fido-PKTs. Es ist nat�rlich nicht ausgeschlossen, da� auch da nochmal der Zeichensatz konvertiert werden mu�te und die Fehler (oder ein Teil davon) *dort* - d.h. in ZFIDO - passiert sind. Allerdings eher unwahrscheinlich, weil ZFIDO und UUZ dieselben Charset-Tabellen aus mimedec.pas benutzen. Christian, kommst Du an diese PKTs noch irgendwie heran oder kannst Du so sagen, ob von WaterGate erzeugte PKTs generell bereits in CP437 (aka "IBMPC 2") vorliegen? Michael ------------------------------------------------------------------------ FreeXP Support-Mailingliste [EMAIL PROTECTED] http://www.freexp.de/cgi-bin/mailman/listinfo/support-list
