tolyangin:

To> В случаях когда мне нужно сделать доступной информацию в формате doc ,
To>  прибегаю к помощи уделите capdoc  и трудностей тут  не было.
To> $capdoc file.doc > file.txt. 

Или antiword.

To> С конвертацией pdf, вроде раньше , до появления подборки упомянутого
To> материала , не возникало. Делал это при помощи pdftotext .

To> Тут же как бы я не старался конвертировать pdf в txt 
To> $pdftotext -raw file.pdf file.txt
To> $pdftotext -enc Latin1 -layout file.pdf
To> $pdftotext file.pdf file.txt,и пр...

To> то на выходе получаю всегда пустой файл (.

Там, наверно, текст включён в виде картинок. Надо его распознавать. Если
в Linux, то - извлечь картинки (возможно, утилитой pdfimages) и
распознать их Cuneiform'ом.

To> Вообщем то  этот вопиющий факт и побудил обратиться в лист за
To> рекомендациями по сабжу.

To> Как поступать с форматами chm djvu тоже не ясно.

djvu - распознавать. chm - распаковывать. В пакете libchm-bin есть
утилита extract_chmLib, которая распаковывает chm:

extract_chmLib файл.chm tmp

в результате получите директорию tmp с html-файлами (и ещё много всяких
файлов).

-- 
Дмитрий Падучих
-- 
Blinux-rus mailing list
[email protected]
http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus

Ответить