Re: TRansformation von HTML in XHTML

2004-03-30 Diskussionsfäden Philipp Meier
Bernhard Marx schrieb:

Michael Hierweck <[EMAIL PROTECTED]> writes:
gibt es ein Tool, ähnlich wie tidy, welche HTML in XHMTL transformiert
und alle Formatierung verwirft, so dass wirklich nur "Struktur"-Tags
übrig bleiben?
[...]

# "ü" that is "ue" seems to appear as: ü,
s/ü/ü/g
Das "ü" ist ein "ü" -- nur versteckt es sich in Deiner ISO-8859-1 
Umgebung, da es offenbar UTF-8 kodiert ist. Ein beherztes "recode 
UTF-8..ISO-8859-1 foo.html" unter beachtung der in der Datei eventuell 
angegebenen Kodierung vor oder nach dem tidy sollte Dir das gewurstel 
mit sed ersparen und auch vor € à µ ø et Co. nicht kapitulieren.

-billy.



--
Meisterbohne   Küfner, Mekle, Meier GbR   Tel: +49-731-399 499-0
   eLösungen   Söflinger Straße 100   Fax: +49-731-399 499-9
   89077 Ulm http://www.meisterbohne.de/
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: TRansformation von HTML in XHTML

2004-03-30 Diskussionsfäden Bernhard Marx
Michael Hierweck <[EMAIL PROTECTED]> writes:

Hallo Michael,

du bist doch von Hostsharing oder?

> gibt es ein Tool, ähnlich wie tidy, welche HTML in XHMTL transformiert
> und alle Formatierung verwirft, so dass wirklich nur "Struktur"-Tags
> übrig bleiben?

Mir ist keine bekannt, aber ich hatte ein ähnliches Problem. Ich bekomme
oft Word-Dokumente, die ins Netz sollen. Ich wandle sie mit wvHtml um,
aber dabei kommt schrecklicher code raus. 

Das ganze behandle ich dann mit "tidy -imc" wobei das -c dazu führt:

| -clean or -creplace FONT, NOBR and CENTER tags by CSS

Die Styles aus dem Head der html Datei lassen sich dann einfach
rauslöschen. 

Sodann schicke ich das ganze noch durch sed um die Klassen loszuwerden
und Tabellenformatierungen zu entfernen. Übrig bleibt das logische
Markup. 

sed -f sedscript input.html > output html

Hier das Sed-Skript (oder wie nennt man sowas?). 

ACHTUNG: keine Garantie für Funktion! Bei mir funktioniert es, aber ich
verstehe weder von sed noch von Regex etwas. Verbesserungsvorschläge
sind sehr wilkommen. :-)

# sed-script for cleaning up html that was converted from Word-Documents
# with wvHtml, OpenOffice, Abiword or similar
#
# (tidy -c is not rigorous enough for me)
# 
#   # What happens if we have a missing ">" ?
#   # will everything until the next ">" be deleted?  

# delete all class attributes leftover from tidy -c
s/\ class\="[a-z,A-Z,\ ,0-9]*"//g
s/^class\="[a-z,A-Z,\ 0-9]*"//g

# take off all the nasty formatting done on table-cells
s/]*>//g

# take off the strange list values that wvHtml generates  
s/]*>//g

# delete all style expressions in tags
s/\ [Ss][Tt][Yy][Ll][Ee]\="[a-z,A-Z,\ 0-9\;\,:]*"//g

# delete all opening div-tags and span-tags
s/]*>//g
s/]*>//g

# delete all closing div-tags and span-tags
s/<\/div>//g
s/<\/span>//g

# delete those nasty  lang="de-DE" stuff
s/ lang\="de-DE"//g

###
##   ##
##now we try to fix broken German umlauts##
##   ##
###

# "ü" that is "ue" seems to appear as: ü,
s/ü/ü/g

# "ö" that is "oe" seems to appear as: ö,
s/ö/ö/g

# "ä" that is "ae" seems to appear as: ä,
s/ä/ä/g


# "Ü" that is "UE" seems to appear as: ý,
s/ý/Ü/g


###
##   ##
##now we try to fix some more broken German umlauts  ##
##   ##
###

# "ä" that is "ae" seems to appear as:  ä,
s/\Ã\¤/\ä/g

# "ö" that is "oe" seems to appear as: ö,
s/\Ã\¶/\ö/g

# "ü" that is "ue" seems to appear as:  ü
s/\Ã\¼/\ü/g

# "ß" that is "ss" seems to appear as: ß,
s/\ß/\ß/g

# "Ä" that is "AE" seems to appear as: Ã",
s/\Ã"/\Ä/g

# "Ö" that is "OE" seems to appear as:  Ã-,
s/\Ã-/\Ö/g

# "Ü" that is "UE" seems to appear as: Ãœ,
s/\Ã\œ/\Ü/g

# (END) 


Gruß,
Berny

-- 
[EMAIL PROTECTED]


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



TRansformation von HTML in XHTML

2004-03-27 Diskussionsfäden Michael Hierweck
Hallo,

gibt es ein Tool, ähnlich wie tidy, welche HTML in XHMTL transformiert 
und alle Formatierung verwirft, so dass wirklich nur "Struktur"-Tags 
übrig bleiben?

Viele Grüße

Michael

--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)