Alexey Pechnikov wrote: > On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote: >> Если хуже — написать собственный парсер, аналог tidy. > > Интересуют готовые решения, я вовсе не планирую для сотен различных > форматов обработчики с нуля писать, это нереально и лишено смысла к тому > же. Вопрос в том, чтобы собрать существующие утилиты.
Мне о таком ничего не известно. Не думаю, что в общем случае решение будет иметь смысл. Вы ведь не требуете восстановления, например, jpeg-а с пропущенным байтом. >> enconv не справится с документами, где текст в latin1, кодировка указана >> windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит >> подобные ошибки. > > Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества > html-страниц - я их не выкидывал пока, т.к. обработка html задача > стандартная, пусть себе тестируются) ошибок распознавания кириллицы не > видно. Я о некиррилических документах. > Вот в исходниках эскулайт есть нераспознанные файлы - видимо, > потому, что там в комментариях модуля поддержки юникода есть символы > с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите, > пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся. Показывал. Раньше в ветке. -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org