2010/2/2 Andrey Kostenko <[email protected]> > 02.02.10 19:27, Alex Kapranoff написав(ла): > > 2010/2/2 Andrey Kostenko <[email protected]> > >> 02.02.10 18:06, Alex Kapranoff написав(ла): >> >> Касание -- не препятствие, потому что оно не препятствует сегментации >> картинки на буквы :) Не уверен, что знаю, какие там алгоритмы, но скорее >> всего картинка строчки текста разбивается на вертикальные блоки в разных >> местах, а потом выбирается самое интересное разбиение. >> >> В аттаче пример, который напрочь убивает распознавание тессерактом. Я >> просто провёл в гимпе чёрную горизонтальную полоску поверх букв. >> >> -- >> Alex Kapranoff. >> >> >> 2010/1/23 Михаил Монашёв <[email protected]> >> >>> Здравствуйте, Александр. >>> >>> хммм. выходит, что касание букв - это не препятствие для распознавания, >>> как писалось ранее... >>> >>> AS> четвёртый символ, конечно, не распознан, но это за 10 минут: >>> AS> --copy >>> AS> c...@host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif >>> AS> c...@host:~/dev/capthca$ convert 1.tif -blur 0 2.tif >>> AS> c...@host:~/dev/capthca$ tesseract 2.tif 2.tif >>> AS> Tesseract Open Source OCR Engine >>> AS> c...@abergman:~/dev/capthca$ cat 2.tif.txt >>> AS> YZHI >>> AS> --cut >>> AS> и без какого-либо "хитрого" подхода. >>> >>> >> Вот такие капчи генерятся. Какое Ваше мнение, сложно они автоматом >>> >> распознаются? >>> >>> >>> >>> -- >>> >>> С уважением, >>> Михаил Монашёв, SoftSearch.ru >>> mailto:[email protected] >>> ICQ# 166233339 >>> http://michael.mindmix.ru/ >>> Без бэкапа по жизни. >>> >>> -- >>> Moscow.pm mailing list >>> [email protected] | http://moscow.pm.org >>> >> >> >> -- >> Moscow.pm mailing [email protected] | http://moscow.pm.org >> >> Как правило основной алгоритм: >> >> use India; >> my $india = India->new >> my $man = $india->get_cheap_man; >> $man->pay("$0.0001"); >> my $captcha = $man->process( >> 'http://id.c<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg> >> *--* >> *Moscow.pm mailing list* >> *[email protected] | http://moscow.pm.org* >> >> >> aptcha.rambler.ru/<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg> >> *--* >> *Moscow.pm mailing list* >> *[email protected] | http://moscow.pm.org* >> >> >> 641aa883fc83131c590a6c5f9e63aa4c.jpg<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg> >> '); >> >> >> вот эту капчу натренированный индус распознает вмиг. А пользователь себе >> мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в Индии :-) >> >> > Я имел в виду алгоритмы в Тессеракте. > > А индусы в мишином случае на раз отсекаются кириллическими буквами. > > Текущая рамблеровская капча является плохим примером, так как > разработчики упростили её распознавание использованием нескольких цветов, а > также убиранием антисегментирующего мусора. В аттаче пример старой капчи. > Она распознаётся сильно хуже, а читается либо так же, либо лучше. > > > -- > Moscow.pm mailing [email protected] | http://moscow.pm.org > > Умный индус пойдет на курсы повышения квалификации, где выучит 32 новые > буквы :-) >
Умного индуса уже не устроит зарплата батарейки в матрице :)
-- Moscow.pm mailing list [email protected] | http://moscow.pm.org
