On Fri, Nov 20, 2009 at 05:19:21PM +0100, Erki-Kiss Zsolt wrote: >>>> Egyszeru a feladat, de nem gondoltam, hogy ennyi problema lehet vele >>>> 2009-ben... Egy UTF8 kodolasu HTML allomanyt szeretnek PDF-be >>>> konvertalni. Ezekkel probalkoztam: >>>> >>>> w3m -dump vacak.html | enscript ps -p - | ps2pdf - vacak.pdf >>>> w3m -dump vacak.html | groff -Tps | ps2pdf - vacak.pdf >>>> html2ps vacak.html | ps2pdf - vacak.pdf >>>> >>>> De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast. >>>> Egy iconv es megfelelo parameterek beiktatasaval a legjobb eredmeny egy >>>> LATIN1 kodolasu PDF lett kalapos o es u karakterekkel. >>>> >>>> Egyeb otlet, javaslat? >>>> >>> wkhtmltopdf - Command line utility to convert html to pdf using WebKit >>> >>> Meg nem hasznaltam. De google ad jopar online konverzios lehetoseget is. >>> >> Esetleg htmldoc >> > > olvasás 1-es. > > Természetesen előtte recode u8..<iso8859-x vagy pc12cc> > > Nekem a cp1250 szokott jó lenni magyar oldalakhoz a TM, (R) és a (C) > miatt. Nem tudom, az iso8859-2-ből miért maradt ki... > ... mint ahogyan azt sem, miért nem tud a htmldoc utf8-at... >
Köszönet, kipróbáltam, htmldoc jó lett cp1250 karakterkészlettel. Viszont még azt sem árultam el eddig, hogy nekem a bemeneti állomány csak egy mezei text only HTML, tehát a w3m bőven megfelel a TEXT konverzióhoz. Így tulajdonképpen a teljes boldogsághoz már csak a TXT->PS konverzióra kellene valamilyen UTF8 kompatibilis megoldás. -- Erki-Kiss Zsolt _________________________________________________ linux lista - linux@mlf.linux.rulez.org http://mlf2.linux.rulez.org/mailman/listinfo/linux