X-From-Line: [email protected] Sun Jun 6 11:52:08 2010 Return-Path: <[email protected]> X-Original-To: anat...@localhost Delivered-To: anat...@localhost ыыыыReceived: from anatoly-laptop (localhost [127.0.0.1]) by anatoly-laptop (Postfix) with ESMTP id E2265F43 for <anat...@localhost>; Sun, 6 Jun 2010 11:52:07 +0300 (EEST) Received: from pop.mail.ru [94.100.177.6] by anatoly-laptop with POP3 (fetchmail-6.3.9-rc2) for <anat...@localhost> (single-drop); Sun, 06 Jun 2010 11:52:07 +0300 (EEST) Received: from [87.106.46.75] (port=59561 helo=s15230566.onlinehome-server.info) by mx61.mail.ru with esmtp id 1OLBWY-000OJU-00; Sun, 06 Jun 2010 12:48:06 +0400 Received-SPF: none (mx61.mail.ru: 87.106.46.75 is neither permitted nor denied by domain of lists.a11ywiki.org) client-ip=87.106.46.75; [email protected]; helo=s15230566.onlinehome-server.info; X-Mru-BL: 0:0:0 X-Mru-PTR: s15230566.onlinehome-server.info X-Mru-NR: 9 X-Mru-OF: Linux (ethernet/modem) X-Mru-RC: DE Received: from s15230566.onlinehome-server.info (s15230566.onlinehome-server.info [127.0.0.1]) by s15230566.onlinehome-server.info (Postfix) with ESMTP id D866315CC0816; Sun, 6 Jun 2010 08:48:04 +0000 (UTC) X-Original-To: [email protected] Delivered-To: [email protected] Received: from k66.ru (k66.ru [87.224.128.21]) by s15230566.onlinehome-server.info (Postfix) with ESMTP id 1088D15CC07CC for <[email protected]>; Sun, 6 Jun 2010 08:48:02 +0000 (UTC) Received: from paduch.telenet.ru (account dpaduch [90.157.67.22] verified) by k66.ru (CommuniGate Pro SMTP 5.1.16) with ESMTPSA id 432364510 for [email protected]; Sun, 06 Jun 2010 14:50:41 +0600 From: Дмитрий Падучих <[email protected]> To: Blind + Linux <[email protected]> References: <[email protected]> <[email protected]> <[email protected]> Date: Sun, 06 Jun 2010 14:48:01 +0600 In-Reply-To: <[email protected]> ([email protected]'s message of "Sat, 05 Jun 2010 19:58:40 +0300") X-Gnus-Mail-Source: file:/var/mail/anatoly Message-ID: <[email protected]> User-Agent: Gnus/5.13 (Gnus v5.13) MIME-Version: 1.0 Subject: Re: [Blinux-rus] конвертация текста в доступные форматы X-BeenThere: [email protected] X-Mailman-Version: 2.1.9 Precedence: list Reply-To: Blind + Linux <[email protected]> List-Id: Blind + Linux <blinux-rus.lists.a11ywiki.org> List-Unsubscribe: <http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus>, <mailto:[email protected]?subject=unsubscribe> List-Archive: <http://www.a11ywiki.org/cgi-bin/mailman/private/blinux-rus> List-Post: <mailto:[email protected]> List-Help: <mailto:[email protected]?subject=help> List-Subscribe: <http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus>, <mailto:[email protected]?subject=subscribe> Content-Type: text/plain; charset="koi8-r" Sender: [email protected] Errors-To: [email protected] X-Spam: Not detected X-Mras: Ok Content-Transfer-Encoding: base64 Lines: 43 Xref: anatoly-laptop blinux-rus:1815
tolyangin: >> в Linux, то - извлечь картинки (возможно, утилитой pdfimages) и >> распознать их Cuneiform'ом. To> Дмитрий если вам не сложно, объясните пожалуйсто как это сделать на To> практике. Покажите рабочие примеры команд и последовательность в To> которых их нужно выполнять. Программа pdfimages есть в пакете poppler-utils. pdfimages -j файл.pdf image В результате получится много файлов image-*. Чтобы их распознать, попробуйте сделать так: for x in image-* ; do nice cuneiform -l ruseng -o "$x".txt "$x" ; done Разобрал pdf , в результате получил череду файлов *.jpg Установил cuneiform , но на попытку распознать им текст, командой которую вы показали , ожидаемого результата не получаю $for x in image-* ; do nice cuneiform -l ruseng -o "$x".txt "$x" ; done Cuneiform for Linux 0.7.0 image-000.jpg is not a BMP file. Cuneiform for Linux 0.7.0 image-001.jpg is not a BMP file. Cuneiform for Linux 0.7.0 image-002.jpg is not a BMP file. Cuneiform for Linux 0.7.0 и так на всех файлах. Возможно нужен другой вариант команды Cuneiform? To>>> Как поступать с форматами chm djvu тоже не ясно. >> djvu - распознавать. chm - распаковывать. В пакете libchm-bin есть >> утилита extract_chmLib, которая распаковывает chm: To> Что значит распозновать? Извините, но поиск информации о путях To> решения этих проблем у меня займет массу времени. Если вы To> сталкивались с подобными препятствиями и знаете код для их To> преодоления , напишите его в лист. Пишу, что помню. Чтобы писать подробнее, мне нужно разбираться самому. Вот что нашёл. Для начала djvu надо разобрать на отдельные страницы. Для этого djvu надо сконвертировать в многостраничный tiff или pdf. Например: ddjvu -format=tiff myfile.djvu myfile.tif Команда ddjvu есть в пакете djvulibre-bin. После этого tiff можно разобрать на страницы командой tiffsplit myfile.tif Получится много файлов x*.tif, которые можно распознавать cuneiform, как показано выше. Команда tiffsplit есть в пакете libtiff-tools. Или можно С распознаванием tif файлов , полученных путем как вы описываете, аналогичная ситуация $for x in *.tif ; do nice cuneiform -l ruseng -o "$x".txt "$x" ; done Cuneiform for Linux 0.7.0 xaaa.tif is not a BMP file. Cuneiform for Linux 0.7.0 xaab.tif is not a BMP file. Cuneiform for Linux 0.7.0 xaac.tif is not a BMP file. Cuneiform for Linux 0.7.0 xaad.tif is not a BMP file. Cuneiform for Linux 0.7.0 xaae.tif is not a BMP file. попробовать задать ddjvu формат pdf и извлечь картинки командой pdfimages. Тут на выходе образовалось много файлов вида *.pbm , но на попытку распознать их получил уже знакомое сообщение от Cuneiform image-149.pbm is not a BMP file. [...] To> Кстати а как в rbook можно делать закладки читая html страницы? У To> меня этот трюк никогда не получался. Попробуйте делать закладки с пакетом bookmark+. Скачать его можно отсюда: http://www.emacswiki.org/emacs/download/bookmark%2b.el Чтобы его скомпилировать, мне пришлось загрузить библиотеку warnings и скопировать файл в директорию из load-path. M-x load-library RET warnings RET После того, как Вы его скомпилируете и загрузите, w3m лучше закрыть (клавиша Q большое в раскладке info) и открыть заново (команда w3m). Класс! Тут все получилось, спасибо! Мегафича, очень удобно. Теперь пожалуй и w3m-bookmark пользоваться станет не интересно ). -- Blinux-rus mailing list [email protected] http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus
