X-From-Line: [email protected] Sat Jun 5 19:45:44 2010 Return-Path: <[email protected]> X-Original-To: anat...@localhost Delivered-To: anat...@localhost Received: from anatoly-laptop (localhost [127.0.0.1]) by anatoly-laptop (Postfix) with ESMTP id 285C5175 for <anat...@localhost>; Sat, 5 Jun 2010 19:45:44 +0300 (EEST) Received: from pop.mail.ru [94.100.177.6] by anatoly-laptop with POP3 (fetchmail-6.3.9-rc2) for <anat...@localhost> (single-drop); Sat, 05 Jun 2010 19:45:44 +0300 (EEST) Received: from [87.106.46.75] (port=34265 helo=s15230566.onlinehome-server.info) by mx61.mail.ru with esmtp id 1OKwOV-0005MD-00; Sat, 05 Jun 2010 20:38:47 +0400 Received-SPF: none (mx61.mail.ru: 87.106.46.75 is neither permitted nor denied by domain of lists.a11ywiki.org) client-ip=87.106.46.75; [email protected]; helo=s15230566.onlinehome-server.info; X-Mru-BL: 0:0:0 X-Mru-PTR: s15230566.onlinehome-server.info X-Mru-NR: 9 X-Mru-OF: Linux (ethernet/modem) X-Mru-RC: DE Received: from s15230566.onlinehome-server.info (s15230566.onlinehome-server.info [127.0.0.1]) by s15230566.onlinehome-server.info (Postfix) with ESMTP id 1C86F15CC0812; Sat, 5 Jun 2010 16:38:46 +0000 (UTC) X-Original-To: [email protected] Delivered-To: [email protected] Received: from k66.ru (k66.ru [87.224.128.21]) by s15230566.onlinehome-server.info (Postfix) with ESMTP id E730215CC07CC for <[email protected]>; Sat, 5 Jun 2010 16:38:43 +0000 (UTC) Received: from paduch.telenet.ru (account dpaduch [90.157.67.22] verified) by k66.ru (CommuniGate Pro SMTP 5.1.16) with ESMTPSA id 432309138 for [email protected]; Sat, 05 Jun 2010 22:41:24 +0600 From: Дмитрий Падучих <[email protected]> To: Blind + Linux <[email protected]> References: <[email protected]> Date: Sat, 05 Jun 2010 22:38:43 +0600 In-Reply-To: <[email protected]> ([email protected]'s message of "Sat, 05 Jun 2010 19:26:15 +0300") X-Gnus-Mail-Source: file:/var/mail/anatoly Message-ID: <[email protected]> User-Agent: Gnus/5.13 (Gnus v5.13) MIME-Version: 1.0 Subject: Re: [Blinux-rus] конвертация текста в доступные форматы X-BeenThere: [email protected] X-Mailman-Version: 2.1.9 Precedence: list Reply-To: Blind + Linux <[email protected]> List-Id: Blind + Linux <blinux-rus.lists.a11ywiki.org> List-Unsubscribe: <http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus>, <mailto:[email protected]?subject=unsubscribe> List-Archive: <http://www.a11ywiki.org/cgi-bin/mailman/private/blinux-rus> List-Post: <mailto:[email protected]> List-Help: <mailto:[email protected]?subject=help> List-Subscribe: <http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus>, <mailto:[email protected]?subject=subscribe> Content-Type: text/plain; charset="koi8-r" Sender: [email protected] Errors-To: [email protected] X-Spam: Not detected X-Mras: Ok Content-Transfer-Encoding: base64 Lines: 25 Xref: anatoly-laptop blinux-rus:1812
tolyangin: To> В случаях когда мне нужно сделать доступной информацию в формате doc , To> прибегаю к помощи уделите capdoc и трудностей тут не было. To> $capdoc file.doc > file.txt. Или antiword. To> С конвертацией pdf, вроде раньше , до появления подборки упомянутого To> материала , не возникало. Делал это при помощи pdftotext . To> Тут же как бы я не старался конвертировать pdf в txt To> $pdftotext -raw file.pdf file.txt To> $pdftotext -enc Latin1 -layout file.pdf To> $pdftotext file.pdf file.txt,и пр... To> то на выходе получаю всегда пустой файл (. Там, наверно, текст включён в виде картинок. Надо его распознавать. Если в Linux, то - извлечь картинки (возможно, утилитой pdfimages) и распознать их Cuneiform'ом. Дмитрий если вам не сложно, объясните пожалуйсто как это сделать на практике. Покажите рабочие примеры команд и последовательность в которых их нужно выполнять. To> Как поступать с форматами chm djvu тоже не ясно. djvu - распознавать. chm - распаковывать. В пакете libchm-bin есть утилита extract_chmLib, которая распаковывает chm: Что значит распозновать? Извините, но поиск информации о путях решения этих проблем у меня займет массу времени. Если вы сталкивались с подобными препятствиями и знаете код для их преодоления , напишите его в лист. extract_chmLib файл.chm tmp в результате получите директорию tmp с html-файлами (и ещё много всяких файлов). Ага, тут вроде ясно. Кстати а как в rbook можно делать закладки читая html страницы? У меня этот трюк никогда не получался. -- Blinux-rus mailing list [email protected] http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus
