tolyangin: To> В случаях когда мне нужно сделать доступной информацию в формате doc , To> прибегаю к помощи уделите capdoc и трудностей тут не было. To> $capdoc file.doc > file.txt.
Или antiword. To> С конвертацией pdf, вроде раньше , до появления подборки упомянутого To> материала , не возникало. Делал это при помощи pdftotext . To> Тут же как бы я не старался конвертировать pdf в txt To> $pdftotext -raw file.pdf file.txt To> $pdftotext -enc Latin1 -layout file.pdf To> $pdftotext file.pdf file.txt,и пр... To> то на выходе получаю всегда пустой файл (. Там, наверно, текст включён в виде картинок. Надо его распознавать. Если в Linux, то - извлечь картинки (возможно, утилитой pdfimages) и распознать их Cuneiform'ом. To> Вообщем то этот вопиющий факт и побудил обратиться в лист за To> рекомендациями по сабжу. To> Как поступать с форматами chm djvu тоже не ясно. djvu - распознавать. chm - распаковывать. В пакете libchm-bin есть утилита extract_chmLib, которая распаковывает chm: extract_chmLib файл.chm tmp в результате получите директорию tmp с html-файлами (и ещё много всяких файлов). -- Дмитрий Падучих -- Blinux-rus mailing list [email protected] http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus
