On Fri, Nov 06, 2009 at 05:21:53PM +0300, Alexey Pechnikov wrote: > > > Хотелось бы что-то без такого количества зависимостей. > > Посмотрите конверторы от recoll (а возможно, и вся софтина > > подойдёт, > Не знал такого, посмотрел. Реализовано не совсем криво, хотя выбран явно > не лучший вариант многих конверторов. Имхо оптимально преобразовывать > офисные документы в html, а потом в txt с помощью w3m - на мой вкус > получается почти идеально. Например, с помощью catppt результат, мягко > говоря, неадекватный, до уровня ppthtml+w3m абсолютно не дотягивает. > > Смотрел не очень внимательно, но, похоже, индексируют по расширению, > а не по mime-типу. Установки пониженного приоритета для фильтров > не нашел... Мета-тэги засовываются в head, а тело документа, > преобразованное в текст, в body/pre... xattr, видимо, не поддерживаются, > и то хорошо - иначе даже боюсь подумать, куда бы их могли засунуть...
См. тж. mimeconf, mimemap в комплекте или ~/.recoll/; насчёт nice -- резонно (на линуксе ещё бы и ionice при возможности заюзывать). > Что интересно, обещана интересная фича - переключение стеммера на > уровне поискового запроса. Получается, стеммер только для запроса > используют, а при индексировании - нет? Простите за "оперативный" ответ -- Вас не затруднит связаться с автором, если софтинка пригодилась? Он *очень* адекватный, один из моих любимых апстримов. Себе в архив отложил, но не уверен, что успею оперативно: - перевести-отослать - отхэндлить дальнейшую переписку > > либо захочется станцевать от xapian-core -- движок очень > > достойный, локально даёт фору гуглю при работе по почтовому > > архиву даже в его публичной части). > В чем именно дает фору? В результативности. Порой находится то, что по гуглю не находится вообще (причём потом откапывается руками в /pipermail); как правило, релевантность _для меня_ также не хуже или заметно лучше. > > BTW кое-кто вроде RFP вешал с год тому, нет? ;-) > А это кому вопрос? К dottedmag@ IIRC. > P.S. Кстати, я что-то не понимаю, или ни один из индексаторов > не предусматривает способа запретить индексирование директории, > положив туда файлик вида .noindex? recoll умеет множественные исключения (как и множественные toplevel dirs). -- ---- WBR, Michael Shigorin <m...@altlinux.ru> ------ Linux.Kiev http://www.linux.kiev.ua/ -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org