Re: [Blinux-rus] конвертация текста в доступные форматы

Дмитрий Падучих Sat, 05 Jun 2010 09:38:47 -0700

tolyangin:

To> В случаях когда мне нужно сделать доступной информацию в формате doc ,
To>  прибегаю к помощи уделите capdoc  и трудностей тут  не было.
To> $capdoc file.doc > file.txt.

Или antiword.

To> С конвертацией pdf, вроде раньше , до появления подборки упомянутого
To> материала , не возникало. Делал это при помощи pdftotext .

To> Тут же как бы я не старался конвертировать pdf в txt
To> $pdftotext -raw file.pdf file.txt
To> $pdftotext -enc Latin1 -layout file.pdf
To> $pdftotext file.pdf file.txt,и пр...

To> то на выходе получаю всегда пустой файл (.

Там, наверно, текст включён в виде картинок. Надо его распознавать. Если
в Linux, то - извлечь картинки (возможно, утилитой pdfimages) и
распознать их Cuneiform'ом.

To> Вообщем то этот вопиющий факт и побудил обратиться в лист за
To> рекомендациями по сабжу.

To> Как поступать с форматами chm djvu тоже не ясно.

djvu - распознавать. chm - распаковывать. В пакете libchm-bin есть
утилита extract_chmLib, которая распаковывает chm:

extract_chmLib файл.chm tmp

в результате получите директорию tmp с html-файлами (и ещё много всяких
файлов).

--
Дмитрий Падучих
--
Blinux-rus mailing list
[email protected]
http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus

Re: [Blinux-rus] конвертация текста в доступные форматы

Ответить