Касание -- не препятствие, потому что оно не препятствует сегментации картинки на буквы :) Не уверен, что знаю, какие там алгоритмы, но скорее всего картинка строчки текста разбивается на вертикальные блоки в разных местах, а потом выбирается самое интересное разбиение.
В аттаче пример, который напрочь убивает распознавание тессерактом. Я просто провёл в гимпе чёрную горизонтальную полоску поверх букв. -- Alex Kapranoff. 2010/1/23 Михаил Монашёв <[email protected]> > Здравствуйте, Александр. > > хммм. выходит, что касание букв - это не препятствие для распознавания, > как писалось ранее... > > AS> четвёртый символ, конечно, не распознан, но это за 10 минут: > AS> --copy > AS> c...@host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif > AS> c...@host:~/dev/capthca$ convert 1.tif -blur 0 2.tif > AS> c...@host:~/dev/capthca$ tesseract 2.tif 2.tif > AS> Tesseract Open Source OCR Engine > AS> c...@abergman:~/dev/capthca$ cat 2.tif.txt > AS> YZHI > AS> --cut > AS> и без какого-либо "хитрого" подхода. > > >> Вот такие капчи генерятся. Какое Ваше мнение, сложно они автоматом > >> распознаются? > > > > -- > > С уважением, > Михаил Монашёв, SoftSearch.ru > mailto:[email protected] > ICQ# 166233339 > http://michael.mindmix.ru/ > Без бэкапа по жизни. > > -- > Moscow.pm mailing list > [email protected] | http://moscow.pm.org >
<<attachment: yzhv.png>>
-- Moscow.pm mailing list [email protected] | http://moscow.pm.org
