X-From-Line: [email protected]  Sun Jun  6 11:52:08 2010
Return-Path: <[email protected]>
X-Original-To: anat...@localhost
Delivered-To: anat...@localhost
ыыыыReceived: from anatoly-laptop (localhost [127.0.0.1]) by anatoly-laptop 
(Postfix) with ESMTP id E2265F43 for <anat...@localhost>; Sun,  6 Jun 2010 
11:52:07 +0300 (EEST)
Received: from pop.mail.ru [94.100.177.6] by anatoly-laptop with POP3 
(fetchmail-6.3.9-rc2) for <anat...@localhost> (single-drop); Sun, 06 Jun 2010 
11:52:07 +0300 (EEST)
Received: from [87.106.46.75] (port=59561 
helo=s15230566.onlinehome-server.info) by mx61.mail.ru with esmtp id 
1OLBWY-000OJU-00; Sun, 06 Jun 2010 12:48:06 +0400
Received-SPF: none (mx61.mail.ru: 87.106.46.75 is neither permitted nor denied 
by domain of lists.a11ywiki.org) client-ip=87.106.46.75; 
[email protected]; 
helo=s15230566.onlinehome-server.info;
X-Mru-BL: 0:0:0
X-Mru-PTR: s15230566.onlinehome-server.info
X-Mru-NR: 9
X-Mru-OF: Linux (ethernet/modem)
X-Mru-RC: DE
Received: from s15230566.onlinehome-server.info 
(s15230566.onlinehome-server.info [127.0.0.1]) by 
s15230566.onlinehome-server.info (Postfix) with ESMTP id D866315CC0816; Sun,  6 
Jun 2010 08:48:04 +0000 (UTC)
X-Original-To: [email protected]
Delivered-To: [email protected]
Received: from k66.ru (k66.ru [87.224.128.21]) by 
s15230566.onlinehome-server.info (Postfix) with ESMTP id 1088D15CC07CC for 
<[email protected]>; Sun,  6 Jun 2010 08:48:02 +0000 (UTC)
Received: from paduch.telenet.ru (account dpaduch [90.157.67.22] verified) by 
k66.ru (CommuniGate Pro SMTP 5.1.16) with ESMTPSA id 432364510 for 
[email protected]; Sun, 06 Jun 2010 14:50:41 +0600
From: Дмитрий Падучих <[email protected]>
To: Blind + Linux <[email protected]>
References: <[email protected]> <[email protected]> 
<[email protected]>
Date: Sun, 06 Jun 2010 14:48:01 +0600
In-Reply-To: <[email protected]> ([email protected]'s message of "Sat, 05 
Jun 2010 19:58:40 +0300")
X-Gnus-Mail-Source: file:/var/mail/anatoly
Message-ID: <[email protected]>
User-Agent: Gnus/5.13 (Gnus v5.13)
MIME-Version: 1.0
Subject: Re: [Blinux-rus] конвертация текста в доступные форматы
X-BeenThere: [email protected]
X-Mailman-Version: 2.1.9
Precedence: list
Reply-To: Blind + Linux <[email protected]>
List-Id: Blind + Linux <blinux-rus.lists.a11ywiki.org>
List-Unsubscribe: 
<http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus>, 
<mailto:[email protected]?subject=unsubscribe>
List-Archive: <http://www.a11ywiki.org/cgi-bin/mailman/private/blinux-rus>
List-Post: <mailto:[email protected]>
List-Help: <mailto:[email protected]?subject=help>
List-Subscribe: <http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus>, 
<mailto:[email protected]?subject=subscribe>
Content-Type: text/plain; charset="koi8-r"
Sender: [email protected]
Errors-To: [email protected]
X-Spam: Not detected
X-Mras: Ok
Content-Transfer-Encoding: base64
Lines: 43
Xref: anatoly-laptop blinux-rus:1815

tolyangin:

>> в Linux, то - извлечь картинки (возможно, утилитой pdfimages) и
>> распознать их Cuneiform'ом.

To> Дмитрий если вам не сложно, объясните пожалуйсто как это сделать на
To> практике. Покажите рабочие примеры команд и последовательность в
To> которых их нужно выполнять.

Программа pdfimages есть в пакете poppler-utils.

pdfimages -j файл.pdf image

В результате получится много файлов image-*. Чтобы их распознать,
попробуйте сделать так:

for x in image-* ; do nice cuneiform -l ruseng -o "$x".txt "$x" ; done


Разобрал pdf , в результате получил череду файлов *.jpg Установил
cuneiform , но на попытку распознать им текст, командой которую вы показали , 
ожидаемого результата не получаю

$for x in image-* ; do nice cuneiform -l ruseng -o "$x".txt "$x" ; done
Cuneiform for Linux 0.7.0
image-000.jpg is not a BMP file.
Cuneiform for Linux 0.7.0
image-001.jpg is not a BMP file.
Cuneiform for Linux 0.7.0
image-002.jpg is not a BMP file.
Cuneiform for Linux 0.7.0

и так на  всех  файлах.


Возможно нужен другой вариант команды Cuneiform?


To>>> Как поступать с форматами chm djvu тоже не ясно.

>> djvu - распознавать. chm - распаковывать. В пакете libchm-bin есть
>> утилита extract_chmLib, которая распаковывает chm:

To> Что значит распозновать? Извините, но поиск информации о путях
To> решения этих проблем у меня займет массу времени. Если вы
To> сталкивались с подобными препятствиями и знаете код для их
To> преодоления , напишите его в лист.

Пишу, что помню. Чтобы писать подробнее, мне нужно разбираться самому.
Вот что нашёл. Для начала djvu надо разобрать на отдельные страницы. Для
этого djvu надо сконвертировать в многостраничный tiff или pdf.
Например:

ddjvu -format=tiff myfile.djvu myfile.tif

Команда ddjvu есть в пакете djvulibre-bin. После этого tiff можно
разобрать на страницы командой

tiffsplit myfile.tif

Получится много файлов x*.tif, которые можно распознавать cuneiform, как
показано выше. Команда tiffsplit есть в пакете libtiff-tools. Или
можно


С распознаванием tif  файлов , полученных путем как вы описываете,
аналогичная ситуация 

$for x in *.tif ; do nice cuneiform -l ruseng -o "$x".txt "$x" ; done
Cuneiform for Linux 0.7.0
xaaa.tif is not a BMP file.
Cuneiform for Linux 0.7.0
xaab.tif is not a BMP file.
Cuneiform for Linux 0.7.0
xaac.tif is not a BMP file.
Cuneiform for Linux 0.7.0
xaad.tif is not a BMP file.
Cuneiform for Linux 0.7.0
xaae.tif is not a BMP file.



попробовать задать ddjvu формат pdf и извлечь картинки командой
pdfimages.


Тут на выходе образовалось много файлов вида *.pbm , но на попытку распознать их
 получил уже знакомое сообщение от Cuneiform 

image-149.pbm is not a BMP file.
[...]

To> Кстати а как в rbook можно делать закладки читая html страницы? У
To> меня этот трюк никогда не получался.

Попробуйте делать закладки с пакетом bookmark+. Скачать его можно
отсюда:

http://www.emacswiki.org/emacs/download/bookmark%2b.el

Чтобы его скомпилировать, мне пришлось загрузить библиотеку warnings и
скопировать файл в директорию из load-path.

M-x load-library RET warnings RET

После того, как Вы его скомпилируете и загрузите, w3m лучше закрыть
(клавиша Q большое в раскладке info) и открыть заново (команда w3m).

Класс!  Тут все получилось, спасибо! Мегафича, очень удобно. Теперь
пожалуй и   w3m-bookmark пользоваться станет не интересно ). 
-- 
Blinux-rus mailing list
[email protected]
http://www.a11ywiki.org/cgi-bin/mailman/listinfo/blinux-rus

Ответить