Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Alexey Pechnikov
Hello! On Friday 12 February 2010 14:59:23 Serhiy Storchaka wrote: > Alexey Pechnikov wrote: > > Хм. Мелкое и шустрое, говорите... > > Не говорю. Но за три часа прогнало мою библиотеку из 25 тыс. файлов. > Достаточно. У меня раза в два быстрее распаковывается из архивов, преобразуется и в базу с

Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: > Хм. Мелкое и шустрое, говорите... Не говорю. Но за три часа прогнало мою библиотеку из 25 тыс. файлов. Достаточно. > $ time echo""|dash $ time echo""|/bin/true > А перловой версии случаем нет, раз уж проект fb2-perl-tools? Нет. Но для вас ведь не составит труда перепи

Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Alexey Pechnikov
Hello! On Friday 12 February 2010 11:40:51 Serhiy Storchaka wrote: > > Вот в исходниках эскулайт есть нераспознанные файлы - видимо, > > потому, что там в комментариях модуля поддержки юникода есть символы > > с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите, > > пока про з

Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: > On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote: >> Если хуже — написать собственный парсер, аналог tidy. > > Интересуют готовые решения, я вовсе не планирую для сотен различных > форматов обработчики с нуля писать, это нереально и лишено смысла к тому > же. Во

Re: Обработка книг формата fb2

2010-02-11 Пенетрантность Alexey Pechnikov
Hello! On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote: > Если дело только в амперсанде, поможет > sed -e 's/&/\&/g;s/&/\&/g' Хуже и намного. Амперсанд я давно уже sed-ом вырезал, где-то выше показывал соответствующую команду. > Если хуже — написать собственный парсер, аналог tid

Re: Обработка книг формата fb2

2010-02-11 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: > В процессе обработки выяснилось, что библиотеки содержат жуткую смесь > валидных и невалидных документов. Пытаюсь выправить чем-то вроде > > exec cat "$2" | enconv | sed 's/ version="1.0" encoding="utf-8"?>/' | tidy -q -xml -utf8 2>/dev/null | > xsltproc "$STYLE" - > >

Обработка книг формата fb2

2010-02-11 Пенетрантность Alexey Pechnikov
Hello! В процессе обработки выяснилось, что библиотеки содержат жуткую смесь валидных и невалидных документов. Пытаюсь выправить чем-то вроде exec cat "$2" | enconv | sed 's//' | tidy -q -xml -utf8 2>/dev/null | xsltproc "$STYLE" - но и так не все документы успешно преобразуются, выдавая ошиб