Michael Heydekamp <[EMAIL PROTECTED]> wrote on 14.07.04:

> Joachim Merkel <[EMAIL PROTECTED]> wrote on 11.07.04:

>> Die ZConnectler bekommen das UTF-8 (mit und ohne CTE base64) nicht
>> decodiert ins Haus.

> Da kann Helmut in dem Fall aber nix dran machen, er hatte einen
> Ausschnitt aus einer Filterregel von CS gepostet.  Und CS benutzt so
> komische CP437-Zeichen wie Omega in seinen Filterregeln, da
> entscheidet sich OpenXP eben - und wie ich meine, korrekt - f�r UTF-8.

Ich beziehe die FreeXP-Foren - mehr aus Jux bzw. zum Testen - ja
parallel auch noch �ber einen Point bei CvB im FTN-Format.  Da f�llt mir
in diesem Zusammenhang folgendes auf:


1. Mit UTF-8 kann das Fido-Gate ebenfalls nix anfangen, es konvertiert
   diese Zeichen zu Fragezeichen.  Ob es base64-codierte Texte
   decodieren w�rde, wei� ich nicht, die Nachricht lag jedenfalls in
   8bit vor.


2. Mit Windows-1254 deklarierte Headerzeilen (siehe Spam mit dem Subject
   "Behinderten Ferien Suedt�rkei") werden nicht decodiert/konvertiert,
   das Subject wird "as is" in codierter Form durchgereicht.

   Der ebenfalls als Windows-1254 deklarierte Body wurde hingegen und
   komischerweise korrekt nach CP437 (oder CP850, das ist nicht
   erkennbar) konvertiert.  Aber das kann auch daran liegen, da� das
   Gate sich gar nicht f�r die Charset-Deklaration des Body interessiert
   und einfach von ISO-8859-1 ausgeht.  Die 8bit-Zeichen, die in der
   Mail konkret verwendet wurden (normale deutsche Umlaute), liegen in
   ISO-8859-1 und Windows-1254 an derselben Position.


3. Als ISO-8859-1 deklarierte Header werden decodiert, aber (teilweise)
   nicht konvertiert. Aus...

  > Subject: =?iso-8859-1?q?Divulga=E7=E3o_por_e-mail__http=3A//www=2Edivulga?=
  >  =?iso-8859-1?q?mail=2Evze=2Ecom?=

  ... wird:

  > Divulgatpo por e-mail  http://www.divulgamail.vze.com
           ^^
  Wobei es sich beim viert- und drittletzten Zeichen in "Divulgatpo" um
  das griechische "tau" (#231 in CP437) und "pi" (#227 in CP437
  handelt), aber die werden ausgehend eben nach "t" und "p" konvertiert,
  deshalb wird man sie in dieser Nachricht nicht als solche sehen
  k�nnen.

  Bei #231 und #227 handelt es sich aber exakt um die codierten Zeichen-
  werte E7 und E3 in ISO-8859-1 - es fand also gar keine Konvertierung
  statt.  E7 in ISO1 ist das Zeichen "�" (kleines "c" mit Cedille, #135
  in CP437) und E3 in ISO1 ist das in CP437 nicht existierende kleine
  "a" mit Tilde, das der UUZ folgerichtig in ein "a" konvertieren w�rde,
  so da� bei einer korrekten Konvertierung nach CP437 am Ende rausk�me:

  "Divulga�ao" statt "Divulgatpo"

  Diese falsche (Nicht-)Konvertierung findet interessanterweise und im
  Unterschied zum obigen Fall hier auch im Body statt.


- Bei anderen Nachrichten, deren Header als ISO-8859-1 deklariert sind
  und die deutsche Umlaute enthalten, wird hingegen sowohl korrekt
  decodiert als auch korrekt konvertiert.


Es sieht also danach aus, als n�hme das Fido-Gate in Headern und Body
eine Konvertierung ausschlie�lich von deutschen Umlauten (und evtl. noch
ein paar anderen Zeichen?) vor, w�hrend es bestimmte Zeichen gar nicht
konvertiert.  Bei bestimmten Zeichens�tzen wie Windows-1254 werden
Header erst gar nicht decodiert (und demzufolge auch nicht konvertiert),
w�hrend bei Bodies, die in genau demselben Zeichensatz vorliegen, zwar
konvertiert, vermutlich aber immer von ISO-8859-1 ausgegangen wird.

Dies erstmal nur zur Dokumentation.  Ich wei� nicht, ob Christian damit
etwas anfangen oder es irgendwie beeinflussen kann (oder die Infos mal
an den Entwickler von WaterGate weiterleiten will).

Ich habe die entsprechenden RFC-Mails mal aus dem mbox-File der
Mailingliste extrahiert und h�nge in der nachfolgenden Nachricht (die
einen direkten Bezug zu dieser hat, also einfach "#" dr�cken)
convert.zip an, das folgende Files enth�lt:

M0001.MSG - RFC-Mail (UTF-8)        aus Punkt 1. oben
M0002.MSG - RFC-Mail (Windows-1254) aus Punkt 2. oben
M0002.MSG - RFC-Mail (ISO-8859-1)   aus Punkt 3. oben
UUZ.PUF   - die vom UUZ daraus erzeugten ZC-Puffer
FIDO.PUF  - die vom Fido-Gate daraus erzeugten ZC-Puffer

Was ich leider nicht mehr habe, sind die originalen Fido-PKTs.  Es ist
nat�rlich nicht ausgeschlossen, da� auch da nochmal der Zeichensatz
konvertiert werden mu�te und die Fehler (oder ein Teil davon) *dort* -
d.h. in ZFIDO - passiert sind.  Allerdings eher unwahrscheinlich, weil
ZFIDO und UUZ dieselben Charset-Tabellen aus mimedec.pas benutzen.

Christian, kommst Du an diese PKTs noch irgendwie heran oder kannst Du
so sagen, ob von WaterGate erzeugte PKTs generell bereits in CP437 (aka
"IBMPC 2") vorliegen?


        Michael
------------------------------------------------------------------------
FreeXP Support-Mailingliste
[EMAIL PROTECTED]
http://www.freexp.de/cgi-bin/mailman/listinfo/support-list

Antwort per Email an