On Fri, Nov 20, 2009 at 05:19:21PM +0100, Erki-Kiss Zsolt wrote:
>>>> Egyszeru a feladat, de nem gondoltam, hogy ennyi problema lehet vele 
>>>> 2009-ben... Egy UTF8 kodolasu HTML allomanyt szeretnek PDF-be 
>>>> konvertalni. Ezekkel probalkoztam:
>>>>
>>>> w3m -dump vacak.html | enscript ps -p - | ps2pdf - vacak.pdf
>>>> w3m -dump vacak.html | groff -Tps | ps2pdf - vacak.pdf
>>>> html2ps vacak.html | ps2pdf - vacak.pdf
>>>>
>>>> De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast. 
>>>> Egy iconv es megfelelo parameterek beiktatasaval a legjobb eredmeny egy 
>>>> LATIN1 kodolasu PDF lett kalapos o es u karakterekkel.
>>>>
>>>> Egyeb otlet, javaslat?
>>>>         
>>> wkhtmltopdf - Command line utility to convert html to pdf using WebKit
>>>
>>> Meg nem hasznaltam. De google ad jopar online konverzios lehetoseget is.
>>>       
>> Esetleg htmldoc
>>     
>
> olvasás 1-es.
>
> Természetesen előtte recode u8..<iso8859-x vagy pc12cc>
>
> Nekem a cp1250 szokott jó lenni magyar oldalakhoz a TM, (R) és a (C) 
> miatt. Nem tudom, az iso8859-2-ből miért maradt ki...
> ... mint ahogyan azt sem, miért nem tud a htmldoc utf8-at...
>   

Köszönet, kipróbáltam, htmldoc jó lett cp1250 karakterkészlettel.

Viszont még azt sem árultam el eddig, hogy nekem a bemeneti állomány 
csak egy mezei text only HTML, tehát a w3m bőven megfelel a TEXT 
konverzióhoz. Így tulajdonképpen a teljes boldogsághoz már csak a 
TXT->PS konverzióra kellene valamilyen UTF8 kompatibilis megoldás.

-- 
Erki-Kiss Zsolt

_________________________________________________
linux lista      -      linux@mlf.linux.rulez.org
http://mlf2.linux.rulez.org/mailman/listinfo/linux

válasz