[dataparksearch] [Forum] Re: robots.txt:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: robots.txt: Allow/Disallow commands are looking in order of appearance, and only the first found applies. So Disallow *.cgi will still exclude *.cgi in this case. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1185818418;page=2
[dataparksearch] [Forum] Re: robots.txt:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: robots.txt: Yes, absolutely right. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1185818418;page=2
[dataparksearch] [Forum] Re: No
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Yelena Subject: Re: No yesterday the Server command worked whithout trailing slash(( today it doesn't work. I use Server command like Server file:///path/to/folder/ - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1176625362
[dataparksearch] [Forum] Re: No
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: No If you would like to limit indexing by the folder specified only, you need to specify the following Server command: Server path file:///path/to/folder/ Please run indexer with -v5 switch specified, this enables maximal debug information, which includes why every page is accepted or rejected for indexing. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1176625362
[dataparksearch] [Forum] Re: Статистика по сайтам
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Статистика по сайтам Каких-либо средств cбора статистики в dpsearch нет. Посчитать кол-во хостов можно следующим запросом: SELECT COUNT(*) FROM server WHERE command='S' AND parent != 0; Посчитать кол-во документов для хоста: SELECT COUNT(*) FROM url WHERE site_id=site_id_value; где site_id_value - любое значение из SELECT rec_id FROM server WHERE command='S' AND parent != 0; - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1186481760
[dataparksearch] [Forum] Re: не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Vitaly Subject: Re: не работает поиск Думаю не помешает search.htm и если используется searchd, то searchd.conf. Ну и ставшее стандартным - после индексации indexer -THW делали? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1186572805
[dataparksearch] [Forum] Re: не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: не работает поиск Указаны ли одинаковые значения WrdFiles в indexer.conf и в search.htm ? Попробуйте в search.htm добавить команду LogLevel 5 она включит максимальный уровен вывода отладочной информации, и покажите вывод при поиске с этим уровнем отладки. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1186572805
[dataparksearch] [Forum] Re: Непонятные результаты при поиске
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Непонятные результаты при поиске Если выключить кэш поисковых запросов командой Cache no будет ли работать корректно ? Какая версия dpsearch используется вами ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1188380991
[dataparksearch] [Forum] Re: статистика по словам по сайту
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: статистика по словам по сайту Для способов хранения cache, crc и crc-multi хранятся не сами лова, а их контрольные суммы. Кроме этого, статистика частот слов при индексировании не собирается и тем самым нигде не хранится. Однако, давая поисковый запрос по конретному слову с выключеной морфологией и синонимами, вы можете получить частоту слова в wordinfo (выдаётся мета-переменными поискового шаблона $(W), $(WS), $(WE)). Если при таком поиске вы укажите ограничение по категории, то будет показана частота слова запроса в данной категории. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1188996956
[dataparksearch] [Forum] Re: 2 программы на сайте
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: 2 программы на сайте Можно поставить. А можно и не ставить, а создать вторую конфигурацию, для indexer можно передавать файл конфигурации, отличный от дефолтного, в качестве параметра: ./indexer /path/to/another.conf Это же правило действует для все программ dpsearch, за искючением search.cgi и mod_dpsearch, им другой шаблон можно передавать CGI-параметром tmplt= - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1189134117
[dataparksearch] [Forum] Re: Непонятные результаты при поиске
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ruler Subject: Re: Непонятные результаты при поиске Максим, извини за беспокойство, но есть ли идеи по данному вопросу? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1188380991
[dataparksearch] [Forum] Re: Непонятные результаты при поиске
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Непонятные результаты при поиске Попробуйте dbmode=cache, или вам нужен именно multi ? Еще можно попробоватьпоследний снапшот версии 4.48 - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1188380991;page=2
[dataparksearch] [Forum] Re: Обновление
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Обновление Изменения на русском доступны по адресу: http://www.dataparksearch.org/ChangeLog.ru Всегда имеет смысл обновляться до последнего релиза, в вашем случае это 4.47 (вы используете один из его снапшотов, выпощеных до релиза). Если вы чувствуете себя уверенно с dpsearch, или в последних снапшотах исправлена существенная для вас ошибка, то имеет смысл обновиться до последнего снапшота версии 4.48. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1189332491
[dataparksearch] [Forum] Re: Вывод части документа с подсвеченными результатами
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: SkyRanger Subject: Re: Вывод части документа с подсвеченными результатами Спасибо настроил stored и searchd все работает, но как то странно, только если скопировать слово и вставить со страницы, если вводишь вручную ничего не находит :( И еще не работает поиск по части слова, например Форумы он находит, а Форум уже нет :( - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1190336321
[dataparksearch] [Forum] Re: странный proc title у cached
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Владимир Subject: Re: странный proc title у cached dpsearch-4.47 - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1190638123
[dataparksearch] [Forum] can't get search.cgi to work from browser
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: saung Subject: can't get search.cgi to work from browser Hi, This is probably a stupid question but I couldn't figure out what was wrong. So I've compiled and installed everything and it seems to be fine. I grabbed the search.cgi file from /usr/local/dpsearch/bin and put it in my cgi-bin folder. I know the folder is accessible because I can access other files/pages in that folder from a browser. I checked and made sure that search.cgi had read and execute access for everyone. I know that search.cgi should work because when I run it from the command line it outputs the html to the screen. However, when I try to access the page from a browser I get a 500 Internal Server Error. I checked the apache error log and it says the error was a Premature end of script errors. I'm guessing this would be a problem with the script not having access to certain resources. I checked the dpsearch directory in /usr/local/dpsearch and it seems that all the folders have the read and execute bits set for all. I wasn't able to get an index to run (I checked and the tables have been created with -Ecreate though) but I don't think that should have anything to do with this accessing problem. I'm using MySQL as the database and the search.htm in /usr/local/dpsearch/etc has read access for everyone. Am I just missing something simple? Thanks in advance. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;post=
[dataparksearch] [Forum] Re: Wrong Search-Results
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Wrong Search-Results Please explain what is wrong with search results, what are you expecting as correct results ? What dbmode you use ? Would you upgrade to the latest version of dpsearch released (it's 4.47) ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1190833600
[dataparksearch] [Forum] Re: Поэтапное индексирование
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ruler Subject: Re: Поэтапное индексирование Огромнейшее спасибо. А еще вопрос. Если я проиндексировал, к примеру, 1000 документов и при этом в базу на индексацию добавилось еще 5000. Они уже помечены на индексацию через Period? Т.е. вопрос в следующем: если я тут же после первой индексации запущу ещё одну, то ничего не проиндексируется? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1190833093
[dataparksearch] [Forum] Wrong Search-Results
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Thomas Pajonk Subject: Wrong Search-Results Hi all, i´ve big trouble with dpsearch 4.45.1 on an opensuse 10.1 with mysql connection. I´ve indexed about 1.5 million url´s. using the search interface, the result are everything, but not the correct result for the keywords. Does anyone know this problem and has a solution to correct it? Kind regards, Thomas - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;post=
[dataparksearch] [Forum] Re: Поэтапное индексирование
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Поэтапное индексирование Новые документы добавляются в базу со временем очередной индексации, равным времени индексиования документа, гда найдена ссылка, которая добавляется в базу. Т.е. приповторном запуске сразу, новые документы будут индексироваться. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1190833093
[dataparksearch] [Forum] Re: Detect clone algoritm
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Владимир Subject: Re: Detect clone algoritm Клоны -- документы, имеющие одинаковые значения Hash32 вычисляемой по всем секциям документа. Копии одного и того же документа имеют одинаковые значения Hash32. Это позволяет не индексировать дубликады документов в коллекции. Однако: всли в файле sections.conf определена только секция title, тогда все документы с разными телами, но одинаковыми title будут считаться клонами. Применение вот этого механизма сняло все вопросы. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1190818033
[dataparksearch] [Forum] Re: can
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: saung Subject: Re: can Wow I can't believe it was that simple. Thank you very very much! - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1190826531
[dataparksearch] [Forum] Re: How to Upgrade 4.45.1 to 4.47?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: How to Upgrade 4.45.1 to 4.47? The simplest way - setup new version over installed. It's compatible. But if you can make backup - make backup anyway. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=01;topic_id=1190978714
[dataparksearch] [Forum] UTF-8 encoding problems
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Marko Subject: UTF-8 encoding problems Hi! I am having problems with indexing some characters used in Slovenian language. I have pages in UTF-8. I am using MySQL support. čČ is decoded correctly šŠ and žŽ are not decoded correctly When I run indexer it makes excerpt which is shown in search results. Instead of those two letters šŠžŽ I see question marks. I have set up wherever possible UTF-8 encoding. indexer.conf: LocalCharset utf-8 RemoteCharset utf-8 # indexer used US-ASCII until I set this search.htm: LocalCharset UTF-8 BrowserCharset UTF-8 Is it important what default character set is set up in MySQL? I have there latin2 because of some legasy databases, but client can change to any other character set. Marko - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;post=
[dataparksearch] [Forum] Re: lib error being seen in Apache logs
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: lib error being seen in Apache logs Even if you have an SQL server on an another PC, you still require to have MySQL client library on PC where search.cgi is running. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=01;topic_id=1192315175
[dataparksearch] [Forum] Re: indexing a very large number of urls
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: indexing a very large number of urls DataparkSearch is able to index up to several million documents, depending on average document size and hardware used (this is for cache dbmode). I don't' know any provider with such kind of service. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1193247324
[dataparksearch] [Forum] Re: Tag ServerWeight
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: RageLT Subject: Re: Tag ServerWeight ./indexer -S Database statistics StatusExpired Total - 0 0 92 Not indexed yet 200 0 10 OK 302 0 1 Moved Temporarily - Total 0103 mysql SELECT u.url, u.status, s.tag, s.url FROM url u, server s WHERE u.status0 AND s.rec_id=u.server_id LIMIT 20; +--++-+---+ | url | status | tag | url | +--++-+---+ | http://www.yahoo.com/|200 | A | http://www.yahoo.com/ | | http://www.msn.com/ |200 | B | http://www.msn.com/ | | http://www.msn.com/rss/games.aspx|200 | B | http://www.msn.com/ | | http://www.msn.com/rss/msnentertainment.aspx |200 | B | http://www.msn.com/ | | http://www.msn.com/rss/msnmoney.aspx |200 | B | http://www.msn.com/ | | http://www.msn.com/rss/news.aspx |200 | B | http://www.msn.com/ | | http://www.msn.com/rss/sports.aspx |200 | B | http://www.msn.com/ | | http://www.msn.com/tour.aspx |200 | B | http://www.msn.com/ | | http://www.msn.com/worldwide.aspx|200 | B | http://www.msn.com/ | | http://www.msn.com/defaultb.aspx |200 | B | http://www.msn.com/ | | http://www.msn.com/default.aspx |302 | B | http://www.msn.com/ | +--++-+---+ 11 rows in set (0.00 sec) - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1193303172
[dataparksearch] [Forum] apache-module
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: RageLT Subject: apache-module Установил dpsearch-4.49-26102007 с поддержкой mod_dpsearch. Всё работает прекрасно, за исключением одного, запрос с кириллицей не выдаёт никакого результата, хотя в базе данные точно есть, через search.cgi всё нормально. Может что-то в apache надо прописать? конфигурация тут: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05topic_id=1193303172 - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
[dataparksearch] [Forum] Re: apache-module
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: RageLT Subject: Re: apache-module At 11:34:23 26/10/07, RageLT wrote: apache_1.3.39 ./configure \ --enable-module=rewrite \ --disable-module=imap \ --disable-module=userdir \ --disable-module=autoindex \ --enable-module=so Конфиг по умолчанию ***httpd.conf*** ServerType standalone ServerRoot /usr/local/apache PidFile /usr/local/apache/logs/httpd.pid ScoreBoardFile /usr/local/apache/logs/httpd.scoreboard Timeout 300 KeepAlive On MaxKeepAliveRequests 100 KeepAliveTimeout 15 MinSpareServers 5 MaxSpareServers 10 StartServers 5 MaxClients 150 MaxRequestsPerChild 0 Port 80 User nobody Group nobody DocumentRoot /usr/local/apache/htdocs Directory / Options FollowSymLinks AllowOverride None /Directory Directory /usr/local/apache/htdocs Options Indexes FollowSymLinks MultiViews AllowOverride None Order allow,deny Allow from all /Directory IfModule mod_userdir.c UserDir public_html /IfModule IfModule mod_dir.c DirectoryIndex index.html /IfModule AccessFileName .htaccess Files ~ ^\.ht Order allow,deny Deny from all Satisfy All /Files UseCanonicalName On IfModule mod_mime.c TypesConfig /usr/local/apache/conf/mime.types /IfModule DefaultType text/plain IfModule mod_mime_magic.c MIMEMagicFile /usr/local/apache/conf/magic /IfModule HostnameLookups Off ErrorLog /usr/local/apache/logs/error_log LogLevel warn LogFormat %h %l %u %t \%r\ %s %b common CustomLog /usr/local/apache/logs/access_log common ServerSignature On IfModule mod_alias.c Alias /icons/ /usr/local/apache/icons/ Directory /usr/local/apache/icons Options Indexes MultiViews AllowOverride None Order allow,deny Allow from all /Directory Alias /manual/ /usr/local/apache/htdocs/manual/ Directory /usr/local/apache/htdocs/manual Options Indexes FollowSymlinks MultiViews AllowOverride None Order allow,deny Allow from all /Directory ScriptAlias /cgi-bin/ /usr/local/dpsearch/bin/ ScriptAlias /cgi/ /usr/local/mnogosearch/bin/ Directory /usr/local/dpsearch/bin AllowOverride None Options None Order allow,deny Allow from all /Directory /IfModule IfModule mod_autoindex.c IndexOptions FancyIndexing AddIconByEncoding (CMP,/icons/compressed.gif) x-compress x-gzip AddIconByType (TXT,/icons/text.gif) text/* AddIconByType (IMG,/icons/image2.gif) image/* AddIconByType (SND,/icons/sound2.gif) audio/* AddIconByType (VID,/icons/movie.gif) video/* AddIcon /icons/binary.gif .bin .exe AddIcon /icons/binhex.gif .hqx AddIcon /icons/tar.gif .tar AddIcon /icons/world2.gif .wrl .wrl.gz .vrml .vrm .iv AddIcon /icons/compressed.gif .Z .z .tgz .gz .zip AddIcon /icons/a.gif .ps .ai .eps AddIcon /icons/layout.gif .html .shtml .htm .pdf AddIcon /icons/text.gif .txt AddIcon /icons/c.gif .c AddIcon /icons/p.gif .pl .py AddIcon /icons/f.gif .for AddIcon /icons/dvi.gif .dvi AddIcon /icons/uuencoded.gif .uu AddIcon /icons/script.gif .conf .sh .shar .csh .ksh .tcl AddIcon /icons/tex.gif .tex AddIcon /icons/bomb.gif core AddIcon /icons/back.gif .. AddIcon /icons/hand.right.gif README AddIcon /icons/folder.gif ^^DIRECTORY^^ AddIcon /icons/blank.gif ^^BLANKICON^^ DefaultIcon /icons/unknown.gif ReadmeName README.html HeaderName HEADER.html IndexIgnore .??* *~ *# HEADER* README* RCS CVS *,v *,t /IfModule IfModule mod_mime.c AddLanguage da .dk AddLanguage nl .nl AddLanguage en .en AddLanguage et .ee AddLanguage fr .fr AddLanguage de .de AddLanguage el .el AddLanguage he .he AddCharset ISO-8859-8 .iso8859-8 AddLanguage it .it AddLanguage ja .ja AddCharset ISO-2022-JP .jis AddLanguage kr .kr AddCharset ISO-2022-KR .iso-kr AddLanguage nn .nn AddLanguage no .no AddLanguage pl .po AddCharset ISO-8859-2 .iso-pl AddLanguage pt .pt AddLanguage pt-br .pt-br AddLanguage ltz .lu AddLanguage ca .ca AddLanguage es .es AddLanguage sv .sv AddLanguage cs .cz .cs AddLanguage ru .ru AddLanguage zh-TW .zh-tw AddCharset Big5 .Big5.big5 AddCharset WINDOWS-1251 .cp-1251 AddCharset CP866.cp866 AddCharset ISO-8859-5 .iso-ru AddCharset KOI8-R .koi8-r AddCharset UCS-2.ucs2 AddCharset UCS-4.ucs4 AddCharset UTF-8.utf8 IfModule mod_negotiation.c LanguagePriority en da nl et fr de el it ja kr no pl pt pt-br ru ltz ca es sv tw /IfModule AddType application/x-tar .tgz AddEncoding x-compress .Z AddEncoding x-gzip .gz .tgz /IfModule IfModule mod_setenvif.c BrowserMatch Mozilla/2 nokeepalive BrowserMatch MSIE 4\.0b2; nokeepalive downgrade-1.0 force-response-1.0 BrowserMatch RealPlayer 4\.0 force-response-1.0 BrowserMatch Java/1\.0
[dataparksearch] [Forum] Re: apache-module
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: apache-module Давайте проверим, правильно ли определяется кодировка документа при индексировании. Для этого переиндексируйте любой документ, который содержит слово портал таким образом: ./indexer -qamv4 -u _URL_ вместо _URL_ нужно подставить url этого документа. В резултате будет выдан яык и кодировка. Если они не совпадают с реальными значениями, покажите содержимое вашего файла langmap.conf. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1193381394
[dataparksearch] [Forum] Re: Ошибка конфигурирования
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Ошибка конфигурирования Появился ли у вас файл install.options ? Если да, покажите его содержимое. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1193406646
[dataparksearch] [Forum] Re: не могу установить Datapark
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: не могу установить Datapark вам нужно установить пэкаджи zlib и zlib-devel на вашу систему. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1195046182
[dataparksearch] [Forum] Re: не могу установить Datapark
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: не могу установить Datapark По умолчанию перебираются несколько возможных вариантов и выбирается тот, где этот файл находится. попробуйте найти его командой find / -name mysql.h -print - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1195046182
[dataparksearch] [Forum] Re: не могу установить Datapark
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Валентин Subject: Re: не могу установить Datapark эээ не знаю, видимо нет, ну а если установлен, то какую директорию в любом случае писать там, или ту что он по умолчанию предлогает - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1195046182
[dataparksearch] [Forum] Re: Ispell
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Ispell К сожалению, такая возможность не предусмотрена. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1195206068
[dataparksearch] [Forum] Re: Realm + Alias creates invalid SQL
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Realm + Alias creates invalid SQL What version of DataparkSearch are you using ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1195532233
[dataparksearch] [Forum] Re: Try also
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Try also Нужно установить aspell и необходимые словари для него, после этого пересобрать dpsearch (как правило он сам его находит по умолчанию), в поисковом шаблоне командой Locale указать локаль, соответсвующую языку, по которому будет работать aspell (или задавать язык явно CGI-параметром g=) и там же указать команду AspellExtensions yes. Подсказка выводится мета-переменной шаблона $(Suggest_q) а соответсвующий ей URL: $(Suggest_url). Пример использования есть в etc/search.htm-dist. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1195551819
[dataparksearch] [Forum] Re: Просьба ответить на массу вопросов
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Валентин Subject: Re: Просьба ответить на массу вопросов а вот что мне выводит поисковик если + включить логи [EMAIL PROTECTED] dpsearch-4.48]# /usr/local/dpsearch/bin/search.cgi easy search.cgi[4010]: {00} search.cgi started with '/usr/local/dpsearch/etc/search.htm' search.cgi[4010]: {00} VarDir: '/usr/local/dpsearch/var' search.cgi[4010]: {00} Affixes: 0, Spells: 0, Synonyms: 0, Acronyms: 0, Stopwords: 0 search.cgi[4010]: {00} Chinese dictionary with 0 entries search.cgi[4010]: {00} Korean dictionary with 0 entries search.cgi[4010]: {00} Thai dictionary with 0 entries search.cgi[4010]: {00} Start DpsFind search.cgi[4010]: {00} DpsFind for mysql://:[EMAIL PROTECTED]/search/?dbmode=cache search.cgi[4010]: {00} DpsGetWords for mysql://:[EMAIL PROTECTED]/search/?dbmode=cache search.cgi[4010]: {00} Start DpsFindWordsCache() search.cgi[4010]: {00} .spell lang: en search.cgi[4010]: {00} Prepare query: easy, ltxt:easy search.cgi[4010]: {00} Segment lang: search.cgi[4010]: {00} wrd {4}: easy search.cgi[4010]: {00} Query prepared in ... 0.0130 sec. search.cgi[4010]: {00} wf= search.cgi[4010]: {00} Reading limits (0, loaded:0)... search.cgi[4010]: {00} Done (0.00) search.cgi[4010]: {00} Sorting 0 limits... search.cgi[4010]: {00} Done (0.00) search.cgi[4010]: {00} Reading .wrd files (1 words)... search.cgi[4010]: {00} stack.word[1]:easy search.cgi[4010]: {00} Seek time: 0.) search.cgi[4010]: {00} [tree/wrd] ARetrieved rec_id: 75f63841 Size: 1037-4528 search.cgi[4010]: {00} Read 1037-4528 time: 0.0020) search.cgi[4010]: {00} Remove old (0) time: 0. search.cgi[4010]: {00} Done (0.01) search.cgi[4010]: {00} Merging (1 groups, 566 urls)... search.cgi[4010]: {00} Done (0.00) Merged ncoords1=566 search.cgi[4010]: {00} Grouping by url_id... search.cgi[4010]: {00} max_order: 0 search.cgi[4010]: {00} Done (0.00) search.cgi[4010]: {00} Start load url data 443 docs search.cgi[4010]: {00} Open /usr/local/dpsearch/var/url/data.dat FAIL search.cgi[4010]: {00} Stop load url data 0 docs in (0.00) search.cgi[4010]: {00} Sort by relevancy,pop_rank... search.cgi[4010]: {00} Done (0.00) search.cgi[4010]: {00} Stop DpsFindWordsCache() - 0.06 search.cgi[4010]: {00} Start Clones search.cgi[4010]: {00} Stop Clones: 0.00 search.cgi[4010]: {00} Start Order, Last-Modified and Excerpts search.cgi[4010]: {00} Stop Order, Last-Modified and Excerpts: 0.00 search.cgi[4010]: {00} Start DpsTrack search.cgi[4010]: {00} Stop DpsTrack: 0.00 search.cgi[4010]: {00} Done DpsFind 0.067 center FORM METHOD=GET ACTION= table bgcolor=#EE width=100% tr td BR Search for: INPUT TYPE=text NAME=q SIZE=50 value=easy INPUT TYPE=submit NAME=cmd value=Search! smalla href=?form=extendedExtended/a/small BRBR /td /tr /table /form /center table bgcolor=#EE width=100% tr td smallSearch for beasy/b./small smallSearch results: beasy: 566 / 566/b/small /td /tr /table p Sorry, your search for beasy/b did not find any results.br No documents were found containing beasy/b.br p Suggestions: UL LI Make sure all words are spelled correctly. LI Try different keywords. LI Try more general keywords. Also, you can try a href=?form=extendedextended search mode/a. /UL table bgcolor=#EE width=100% trtdnbsp;/td/tr /table table width=100% bgcolor=#FF tr td align=left font size=1a href=http://www.dataparksearch.org/;Powered by DataparkSearch Engine/a/font /td /tr /table P - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1195652436
[dataparksearch] [Forum] Re: WARNING: nonstandard use of \
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: WARNING: nonstandard use of \ Yes, setting 'escape_string_warning' to off is a workaround solution. I'll update PgSQL stuff in a future release. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=03;topic_id=1196242321
[dataparksearch] [Forum] Ошибка при установке
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: zabar Subject: Ошибка при установке Добрый день! При установке получаю следующую ошибку: полный путь заменен на - path configure failed: -1 at /usr/home/path/111/install.pl line 176, STDIN line 33. полные параметры установки: /usr/home/path/111/install.pl DataparkSeach installation script version 0.4 Layout settings --- Please set installation path [/usr/local/dpsearch]: /usr/home/path Configured layout: Installation path: /usr/home/path User executables DIR: /usr/home/path/bin System executables DIR: /usr/home/path/sbin Configuration data DIR: /usr/home/path/etc Modifiable data DIR: /usr/home/path/var Object code libraries DIR: /usr/home/path/lib C header files DIR: /usr/home/path/include Man documentation DIR: /usr/home/path/man Change layout ? (yes/no) [no]: no Database settings - Try to autodetect databases at known locations? (yes/no) [yes]: yes MySQL server found PostgreSQL server found Which ODBC-style database support to include? Note, that you may choose only one from the following. 1 - Include iODBC support. 2 - Include unixODBC support. 3 - Include OpenLink ODBC support. 4 - Include EasySoft ODBC support. 5 - Include IBM DB2 support. 6 - None of these. Choose one from the mentioned (6): 6 Which database support to include? Note, that you can choose only one from these. 1 - Include Solid support. 2 - Include SAPDB support. 3 - None of these. Choose one from the mentioned (3):3 Include MySQL support [yes] ? yes Enter MySQL base install directory [autodetect]: autodetect Include PostgreSQL support [yes] ? yes Enter PostgreSQL base install directory [autodetect]: autodetect Include mSQL support [no] ? no Include InterBase support [no] ? no Include Oracle7 support [no] ? no Include Oracle8 support [no] ? no Include Oracle8i support [no] ? no Include Ct-Lib support [no] ? no Include FreeTDS Ct-Lib support [no] ? no Compilation settings Build shared libraries? (yes/no) [yes]: yes build static libraries? (yes/no) [no]: no Logging settings Use syslog (yes) or stdout/stderr (no)? (yes/no) [yes]: yes Syslog facility (valid name from /usr/include/sys/syslog.h) [default]: default URL parser settings --- Enable file:// URL scheme support? (yes/no) [yes]: yes Enable http:// URL scheme support? (yes/no) [yes]: yes Enable ftp:// URL scheme support? (yes/no) [yes]: yes Enable htdb:/ virtual URL scheme support? (yes/no) [yes]: yes Enable news:// URL schema support? (yes/no) [yes]: yes Additional features --- Enable Posix pthreads? (yes/no) [yes]: yes Enable external parsers support? (yes/no) [yes]: yes Enable MP3 tags support? (yes/no) [yes]: yes Enable HTTP Content-Encoding (zlib) support? (yes/no) [yes]: yes Enable aspell-based automatic word correction? (yes/no) [no]: no Enable support for extra charsets? (yes/no) [no]: no Enable DMALLOC support ? (yes/no) [no]: no Enable OpenSSL support ? (yes/no) [no]: no ./configure --prefix=/usr/home/path --bindir=/usr/home/path/bin --sbindir=/usr/home/path/sbin --sysconfdir=/usr/home/path/etc --localstatedir=/usr/home/path/var --libdir=/usr/home/path/lib --includedir=/usr/home/path/include --mandir=/usr/home/path/man --enable-shared --enable-syslog --enable-pthreads --enable-parser --enable-mp3 --without-aspell --enable-file --enable-http --enable-ftp --enable-htdb --enable-news --with-mysql --with-pgsql configure failed: -1 at /usr/home/path/111/install.pl line 176, STDIN line 33. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;post=
[dataparksearch] [Forum] Re: Просьба ответить на массу вопросов
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Валентин Subject: Re: Просьба ответить на массу вопросов новый вопрос масса слов которые есть на странице почему то не ищутся, в чем дело , что делать? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1195652436;page=2
[dataparksearch] [Forum] Индексирование MediaWiki
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Андрей Subject: Индексирование MediaWiki Здравствуйте, я хочу проиндексировать mediawiki, поможите кто чем может :-) 1) mediawiki для адресации использует не номера(индексы), а названия страниц, например: http://mediawiki.lan/index.php/Заглавная_страница, а не http://mediawiki.lan/index.php/page_id=1 как сделать так, чтобы dpsearch при индексации использовал индексы, а ссылки генерил с названиями? Андрей. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
[dataparksearch] [Forum] No 'Server' command for url
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: No 'Server' command for url Что делает indexer еще, кроме вывода сообщения No 'Server' command for url, когда он встречает такие условия? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;post=
[dataparksearch] [Forum] Re: segfault на 4.48
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: segfault на 4.48 Вчера тоже поймал segfault на dpsearch-4.48-mysql-freetds, правда, без core dump. Запускал просто как indexer -N 5. # uname -a Linux spider 2.6.17-gentoo-r4 #1 SMP Sat Aug 26 17:44:54 TJT 2006 i686 Intel(R) Pentium(R) 4 CPU 3.00GHz GenuineIntel GNU/Linux # gcc --version gcc (GCC) 4.1.2 (Gentoo 4.1.2 p1.0.2) # /lib/libc.so.6 GNU C Library stable release version 2.6.1, by Roland McGrath et al. Copyright (C) 2007 Free Software Foundation, Inc. This is free software; see the source for copying conditions. There is NO warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. Compiled by GNU CC version 4.1.2 (Gentoo 4.1.2 p1.0.2). Compiled on a Linux 2.6.17-gentoo-r4 system on 2007-12-04. Available extensions: C stubs add-on version 2.1.2 crypt add-on version 2.1 by Michael Glad and others Gentoo patchset 1.1 GNU Libidn by Simon Josefsson Native POSIX Threads Library by Ulrich Drepper et al Support for some architectures added on, not maintained in glibc core. BIND-8.2.3-T5B - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1194500284
[dataparksearch] [Forum] Странные записи в таблице server
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Странные записи в таблице server Давно заметил, что в таблице server присутствуют странные записи, например, параметры из indexer.conf, такие как Disallow, а также неверно сформированные URL из индексируемых документов, например, с неправильно сформированным именем протокола. Это нормально? [pre]mysql select rec_id,parent,url from server where url not like 'http://%.tj%' order by url; +-+-+-+ | rec_id | parent | url | +-+-+-+ | -1558897981 | 0 | *.??_ | | -303415946 | 0 | *.a | | 752243032 | 0 | *.ai | | 1653070540 | 0 | *.aif | | 1420788177 | 0 | *.aiff | | -1487048733 | 0 | *.am | | -1624862788 | 0 | *.arj | | 1248070425 | 0 | *.avi | | -1009981404 | 0 | *.b | | -252565531 | 0 | *.bin | | -1109799009 | 0 | *.bmp | | -1376835098 | 0 | *.bms | | 1845106943 | 0 | *.bz2 | | -784521992 | 0 | *.cab | | 648492231 | 0 | *.cdf | | 912494834 | 0 | *.class | | -1258315430 | 0 | *.com | | -1937387122 | 0 | *.cpt | | -1744002416 | 0 | *.css | | 197990351 | 0 | *.dat | | -1714321870 | 0 | *.dll | | -89864740 | 1845846513 | 00://tut.freenet.tj/ | | 872479281 | 1845846513 | 01://tut.freenet.tj/ | | 1980206859 | 1845846513 | 02://tut.freenet.tj/ | | 151508414 | 1845846513 | 03://tut.freenet.tj/ | | 1009636514 | 1845846513 | 04://tut.freenet.tj/ | | 1028664751 | 1845846513 | 05://tut.freenet.tj/ | | -1531880002 | 1845846513 | 06://tut.freenet.tj/ | | 1650203748 | 1845846513 | 07://tut.freenet.tj/ | | -905561487 | 1845846513 | c://tut.freenet.tj/ | | 139958690 | 1845846513 | c://www.cst.tj/ | | 1955943923 | 1845846513 | c://www.tut.freenet.tj/ | |
[dataparksearch] [Forum] Re: Странные записи в таблице server
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Странные записи в таблице server Да, это нормально. Фильтры тоже заносятся в таблицу server, а для неправильных URL (собственно как и для всех остальных URL) сохраняется имя сервера, т.к. по нему строится server_id. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1197790226
[dataparksearch] [Forum] CrawlDelay
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Sharon Subject: CrawlDelay My indexer.conf contains two sites: Realm Allow http://www.A.com/forum* Realm Allow http://www.B.com/* URL http://www.A.com/forums.php URL http://www.B.com/ I set at the end of indexer.conf CrawlDelay 10 I was expecting a page download for every 10 seconds. But when i run the indexer, it crawls without any delay Runing: indexer -p 1 fixed it. But still, since as i crawl for two different sites i was expecting interleaving between the requests, i.e. every 10 sec download one page from site A _and_ one page fom site B ? Isnt it supposed to be like that ? What am i doing worng ? TIA ! - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;post=
[dataparksearch] [Forum] Re: segfault на 4.48
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: segfault на 4.48 Сегодня поймал segfault сразу после тестового запуска: [pre]spider dpsearch # sbin/indexer -N 5 -r indexer[11166]: {00} indexer from dpsearch-4.48-mysql-freetds started with '/usr/local/dpsearch/etc/indexer.conf' indexer[11166]: {01} URL: http://www.love.parviz.tj/ indexer[11166]: {02} URL: http://tajforum.tj/index.php?act=STf=12t=103 Segmentation fault[/pre] Включаю дамп. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1194500284
[dataparksearch] [Forum] Re: No
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: No Кстати, я заметил, что у меня появилось множество таких сообщений о том, что нет команды Server для каких-то URL. Это появилось только в версии 4.48, до этого данные URL нормально индексировались и попадали в базу, конфиг не менялся с предыдущих версий. Например, вот типичный вывод: [pre] indexer[12959]: {05} URL: http://www.varorud.org/index.php?option=com_contenttask=viewid=4344Itemid=107 indexer[12959]: {05} No 'Server' command for url indexer[12959]: {05} Deleting http://www.varorud.org/index.php?option=com_contenttask=viewid=4344Itemid=107 [/pre] Хорошо, смотрим в БД: [pre] mysql select count(*) from url where url like 'http://www.varorud.org%'; +--+ | count(*) | +--+ |76069 | +--+ 1 row in set (0.52 sec) mysql select distinct server_id from url where url like 'http://www.varorud.org%'; ++ | server_id | ++ | 1845846513 | ++ 1 row in set (0.62 sec) mysql select parent,url from server where rec_id=1845846513; ++-+ | parent | url | ++-+ | 0 | 193.111.10.0/23 | ++-+ 1 row in set (0.05 sec) [/pre] Видим, что все записи в таблице URL, ссылающиеся на http://www.varorud.org, ссылаются на один и тот же сервер, но это не сервер http://www.varorud.org, а 193.111.10.0/23, для которого у меня в indexer.conf есть следующий параметр: Subnet 193.111.10.0/23 Получается, что что-то изменилось во внутренней логике работы DPS. Интересно, что? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1197747364
[dataparksearch] [Forum] Re: No
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: No [pre]spider dpsearch # sbin/indexer -qaimv5 -u http://www.varorud.org/ indexer.cfg[14726]: {00} URLDB: 8 records fetched indexer.cfg[14726]: {00} URLDB: http://www.1tv.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: 1194709586 URL: http://www.1tv.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} URLDB: http://amcu.gki.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: 169636386 URL: http://amcu.gki.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} URLDB: http://www.andoz.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: 148809168 URL: http://www.andoz.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} URLDB: http://www.approach.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: -449816968 URL: http://www.approach.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} URLDB: http://www.arzon-mobile.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: 511035512 URL: http://www.arzon-mobile.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} URLDB: http://www.asiagrandhotel.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: 1849837000 URL: http://www.asiagrandhotel.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} URLDB: http://www.asiatrade.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: -149122977 URL: http://www.asiatrade.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} URLDB: http://avto777.tj/ indexer.cfg[14726]: {00} Allow by default indexer.cfg[14726]: {00} Server applied: site_id: 1002450279 URL: http://avto777.tj/ indexer.cfg[14726]: {00} Allow by default indexer[14726]: {00} DpsOpenCache: indexer[14726]: {00} Done. indexer[14726]: {00} indexer from dpsearch-4.48-mysql-freetds started with '/usr/local/dpsearch/etc/indexer.conf' indexer[14726]: {00} Chinese dictionary with 0 entries indexer[14726]: {00} Korean dictionary with 0 entries indexer[14726]: {00} Thai dictionary with 0 entries indexer[14726]: {00} LogsOnly: no indexer[14726]: {00} mutexes used: 256 indexer[14726]: {01} DpsOpenCache: indexer[14726]: {01} Done. indexer[14726]: {01} Target.body: NULL indexer[14726]: {01} Target.Charset: NULL indexer[14726]: {01} Target.Content-Language: NULL indexer[14726]: {01} Target.Content-Length: 0 indexer[14726]: {01} Target.Content-Type: NULL indexer[14726]: {01} Target.crc32: 0 indexer[14726]: {01} Target.crosswords: NULL indexer[14726]: {01} Target.DP_ID: 3394939 indexer[14726]: {01} Target.E_URL: http://www.varorud.org/ indexer[14726]: {01} Target.Hops: 0 indexer[14726]: {01} Target.meta.description: NULL indexer[14726]: {01} Target.meta.keywords: NULL indexer[14726]: {01} Target.Pop_Rank: 0.25 indexer[14726]: {01} Target.PrevStatus: 0 indexer[14726]: {01} Target.Referrer-ID: 0 indexer[14726]: {01} Target.Since: 1197904904 indexer[14726]: {01} Target.Status: 0 indexer[14726]: {01} Target.title: NULL indexer[14726]: {01} Target.url: http://www.varorud.org/ indexer[14726]: {01} Target.URL_ID: 125589599 indexer[14726]: {01} URL: http://www.varorud.org/ indexer[14726]: {01} No 'Server' command for url indexer[14726]: {01} Deleting http://www.varorud.org/ indexer[14726]: {01} Done (1 seconds, 0 documents, 0 bytes, 0.00 Kbytes/sec.) indexer[14726]: {00} Total 1 seconds, 0 documents, 0 bytes, 0.00 Kbytes/sec, 0.00 sec/doc, 0 bytes/doc. indexer[14726]: {00} Neo PopRank: 0 documents, 0 pas, 0.00 Kpas/sec, 0.00 sec/doc, 0.00 pas/doc. [/pre] - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1197747364
[dataparksearch] [Forum] Re: No
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: No Раскоментарьте, пожалуйста, #define DEBUG_MATCH 1 в заголовке src/match.c и пересоберите dpsearch, затем повторите команду sbin/indexer -qaimv5 -u http://www.varorud.org/ - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1197747364
[dataparksearch] [Forum] Re: Как проиндексировать две SQL таблицы
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Андрей Subject: Re: Как проиндексировать две SQL таблицы А зачем path указывать явно, если он по умолчанию? path describes all documents which are under the same path with URL. Default value is path - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1197537358
[dataparksearch] [Forum] Unaccessible pages and documents
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Marko Hrastovec Subject: Unaccessible pages and documents Hi! I have a question regarding searching different parts of web page. I have a site where not all pages are accessible to all users. We have groups of users which can see different private pages. there are also public pages visible for all. I can make indexer to crawl through all pages. I can also put some special strings in meta tags to diferentiate private pages. How can I set parameters for dpsearch to return results only from pages that are allowed for specific user. We are calling cgi-bin program from PHP and deliver results within a PHP page. We also have documents (doc, pdf,...) which are served through PHP script. That PHP script controls accessibility of the documents for user groups. Is it possible to set some HTTP headers in that PHP script that would dpindexer would differentiate between documents for different user groups? User groups are not fixed so it is not desirable to put some specific informations about groups into config files. Thank Marko - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;post=
[dataparksearch] [Forum] Re: Параллельное многосерверное индекирование
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Параллельное многосерверное индекирование Вы также можете использовать команду MarkForIndex no в indexer.conf, она выкючает снятие пометки устаревания с документов, выбираемых к индексированию. Это позволит снизить нагрузку на SQL сервер за счет увеличения вероятности индексирования одного и того же документа разными indexer. Для индексирования через разные каналы, вы можете пометить часть серверов одним тегом, а другие сервера - другим тэгом, а затем использовать разные тэги при запуске indexer на разных каналах. (вместо тэгов можно использовать категории) Также вы можете использовать ключ -r для интексер при запуске индексирования на нескольких машинах. Этим ключом включается рандомизация индексируемых документов, что позволит снизить вероядность одновременного индексирования одного и того же документа с разных мащин. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1198046306
[dataparksearch] [Forum] Re: Unaccessible pages and documents
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Unaccessible pages and documents I think this can be implemented using categories. At first, you need to created one category per document group, then you need to create one category per user group, and then you need to create subcategories within each user group as links to document categories which those users have right to access. Thus, pass a category corresponding to a user group as c= CGI-variable, you'll have a limit only by documents which that user group have right to access. To construct categories, you may use category editor cat_ed.pl, which is located in perl/cat_ed directory of dpsearch distribution. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1198063278
[dataparksearch] [Forum] Re: Параллельное многосерверное индекирование
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: Параллельное многосерверное индекирование Спасибо за совет относительно использования команды MarkForIndex no совместно к ключем -r, я его обязательно приму во внимание. Как я понял, переход с dbmode=multi на использование демона cached без потери индекса слов невозможен? И еще один вопрос: не могу ли я присваивать серверам тэги/категории непосредственно в таблице server, изменяя поля tag/category, и не указывая их в конфигурационном файле? Т.е. не изменятся ли эти параметры автоматически при следующем индексировании данных серверов? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1198046306
[dataparksearch] [Forum] Re: Проблемы с резолвером
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Проблемы с резолвером Почему вы решили, что он туда ломится ? Он всего лишь сообщает причину, по которой документ пропущен при индексировании. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198139549
[dataparksearch] [Forum] Re: Параллельное многосерверное индекирование
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Параллельное многосерверное индекирование Записи в таблице сервер соответсуют конфигурации, неважно где она задана, в файле indexer.xonf или в вашей таблице. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1198046306
[dataparksearch] [Forum] Как на FTP индексировать только *.txt, *.htm[l] и каталоги?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Как на FTP индексировать только *.txt, *.htm[l] и каталоги? Написал такое выражение: [pre]CheckOnly Regex ^ftp://.*(?!\.txt|\.htm|\.html|\/)$[/pre] Выражение валидно, отлажено в RegexBuddy, но indexer ругается на него: [pre]vampiro:/usr/local/dpsearch# sbin/indexer -N 5 -r !!! - regexcomp: Invalid preceding regular expression /usr/local/dpsearch/etc/indexer.conf:472: Invalid preceding regular expression[/pre] Похоже, что negative lookbehind-ы не поддерживаются. Чем заменить? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
[dataparksearch] [Forum] Re: Как на FTP индексировать только *.txt, *.htm[l] и каталоги?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Как на FTP индексировать только *.txt, *.htm[l] и каталоги? не будут. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1198339888
[dataparksearch] [Forum] Re: Как на FTP индексировать только *.txt, *.htm[l] и каталоги?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: Как на FTP индексировать только *.txt, *.htm[l] и каталоги? Прописал в конфиге следующие параметры: [pre]Allow NoCase Regex ^ftp://.*(\.txt|\.htm|\.html|/)$ CheckOnly ftp://*[/pre] Затем удалил все документы, загруженные с ftp ранее: indexer -Cu ftp://%, и заново запустил индексацию. Сегодня утром обнаружил, что много документов с ftp попало в таблицу url. Теперь непонятно, как отделить проиндексированные документы от тех, которые попали под правило CheckOnly, ведь в таблице url у тех и у других указан реальный размер (docsize). Раньше я пользовался таким методом, чтобы искать большие документы и, во-первых, запрещать расширения файлов (Disallow), и, во-вторых, удалять их из базы: [pre]mysql select max(docsize) from url; +--+ | max(docsize) | +--+ |172148127 | +--+ 1 row in set (24.22 sec) mysql select rec_id,url from url where docsize=172148127; +-++ | rec_id | url | +-++ | 3565720 | ftp://ftp.babilon-t.tj/Music/TRANCE/Crazy Trance/A.S.O.T. - 241/Armin_van_Buuren_-_A_State_Of_Trance_241_[23-03-2006].mp3 | +-++ 1 row in set (1.29 sec)[/pre] Как теперь отличить те, которые присутствуют в индексе и базе stored от тех, которые проверяются по CheckOnly, -- непонятно. P.S. Большие значения time у MySQL из-за load average: 10.06, 8.60, 8.04. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1198339888
[dataparksearch] [Forum] Как загружаются данные о серверах.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ruler Subject: Как загружаются данные о серверах. Максим, интересует как именно индексер подгружает ссылки на сервера. У нас данные о серверах хранятся в таблице и логично было бы чтобы, даже с опцией -r, индексер брал на индексирование несколько урлов. Но он так долго запускается, что создается впечатление, что он скачивает все записи из таблицы серверов (сейчас у нас их примерно 8000). В такой ситуации кратковременные запуски ведут к большим накладным расходам. Может это как-то регулируется? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;post=
[dataparksearch] [Forum] Re: Как загружаются данные о серверах.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Как загружаются данные о серверах. Если конфигурация не меняется, попробуйте использовать ключ -q для indexer, это сокращает время его старта в таком случае. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198669493
[dataparksearch] [Forum] Re: mod_apache не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: feduska Subject: Re: mod_apache не работает поиск тогда indexer выдаёт: unsupported media type - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198311988
[dataparksearch] [Forum] Re: mod_apache не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: feduska Subject: Re: mod_apache не работает поиск Я результат отдаю в XML файле, a теперь ради интереса попробовал default (search.htm) И в результате вижу : Search for [b]telefon[/b]. Search results: [b]telefon: 112 / 204[/b] Также переменная словоформ не пустая $(WE): telefonas: 112, telefone: 3, telefonai: 9, telefonui: 5, telefono: 44, telefonais: 2, telefonus: 6, telefonu: 23 Но на этом всё заканчивается, сам список результатов пуст... Похоже проблема не в поиске, а в присваивании результатов? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198311988
[dataparksearch] [Forum] Re: mod_apache не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: mod_apache не работает поиск 1. А как теперь выглядит вывод при выполнении этого запроса в консоле сервера ? По идее он должен выглядить также, как и ответ веб-сервера. 2. Добавьте команду LogLevel 5 в ваш поисковый шаблон search.htm и покажите вывод в error_log привыполнении этого поискового запроса. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198311988
[dataparksearch] [Forum] Re: mod_apache не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: feduska Subject: Re: mod_apache не работает поиск шаблон search.htm [b]запрос через cgi[/b] (search.cgi?q=telefonast=SKE):: searchd[22231]: {00} [127.0.0.1] Connected. PORT: 218,18 searchd[22231]: {00} Waiting for command header searchd[22231]: {00} Received header cmd=3 len=129 searchd[22231]: {00} Received words len=129 words='q=telefonast=SKEBrowserCharset=UTF-8IP=127.0.0.1g-lc=enExcerptSize=256ExcerptPadding=40DoExcerpt=yestmplt=search.htm' searchd[22231]: {00} Query: telefonas [Charset: UTF-8] searchd[22231]: {00} Query prepared in ... 0. sec. searchd[22231]: {00} Sent total_found packet 33 bytes buf='Total_found=0(0)' searchd[22231]: {00} Sent WWL packet 1462 bytes cmd=8 len=1446 nwords=12 searchd[22231]: {00} Sent URLDATA packet 16 bytes cmd=13 len=0 searchd[22231]: {00} Sent words packet 16 bytes cmd=3 len=0 nwords=0 searchd[22231]: {00} Waiting for command header searchd[22231]: {00} Received header cmd=4 len=0 searchd[22231]: {00} Received goodbye command. Work time: 0.220 sec. searchd[22231]: {00} Quit В перенных $(W) и $(WE) результат есть, но массив результатов пуст // шаблон result.xml [b]запрос через mod_apache[/b] (search?q=telefonast=SKE) :: mod_dpsearch[22363]: {00} val: SKE[SKE] 59b75d4f 0 59b75d4f 0 mod_dpsearch[22363]: {00} dpsearch_handler: q=telefonast=SKE mod_dpsearch[22363]: {00} dpsearch_handler: old_tmplt: /usr/local/dpsearch/etc/result.xml tmplt: /usr/local/dpsearch/etc/resu mod_dpsearch[22363]: {00} val: SKE[SKE] 59b75d4f 0 59b75d4f 0 mod_dpsearch[22363]: {00} SetLogLevel: 5 mod_dpsearch[22363]: {00} LocalCharset: 'iso-8859-1' BrowserCharset 'UTF-8' in template '/usr/local/dpsearch/etc/result.xml' mod_dpsearch[22363]: {00} Start DpsFind mod_dpsearch[22363]: {00} DpsFind for mysql://user:[EMAIL PROTECTED]/db/?dbmode=cachetrackquery mod_dpsearch[22363]: {00} DpsGetWords for mysql://user:[EMAIL PROTECTED]/db/?dbmode=cachetrackquery mod_dpsearch[22363]: {00} Start DpsFindWordsCache() mod_dpsearch[22363]: {00} .spell lang: en mod_dpsearch[22363]: {00} Prepare query: telefonas, ltxt:telefonas mod_dpsearch[22363]: {00} Segment lang: mod_dpsearch[22363]: {00} wrd {9}: telefonas mod_dpsearch[22363]: {00} Query prepared in ... 0.0020 sec. [Fri Dec 28 11:06:27 2007] [notice] {00} Query prepared in ... 0.0020 sec. mod_dpsearch[22363]: {00} wf= mod_dpsearch[22363]: {00} Reading limits (1, loaded:0)... mod_dpsearch[22363]: {00} Linear limit for: 59b75d4f mod_dpsearch[22363]: {00} lims.0.size:977 mod_dpsearch[22363]: {00} Done (0.00) mod_dpsearch[22363]: {00} Sorting 1 limits... mod_dpsearch[22363]: {00} Done (0.00) mod_dpsearch[22363]: {00} Reading .wrd files (16 words)... mod_dpsearch[22363]: {00} stack.word[1]:telefonas mod_dpsearch[22363]: {00} Seek time: 0.0010) mod_dpsearch[22363]: {00} [tree/wrd] ARetrieved rec_id: fc7a84e9 Size: 71988-155792 mod_dpsearch[22363]: {00} Read 71988-155792 time: 0.0010) mod_dpsearch[22363]: {00} Remove old (0) time: 0. mod_dpsearch[22363]: {00} stack.word[3]:telefon#261; mod_dpsearch[22363]: {00} Seek time: 0.) mod_dpsearch[22363]: {00} [tree/wrd] ARetrieved rec_id: 2248556 Size: 1026-1920 mod_dpsearch[22363]: {00} Read 1026-1920 time: 0.) mod_dpsearch[22363]: {00} Remove old (0) time: 0. mod_dpsearch[22363]: {00} stack.word[5]:telefone mod_dpsearch[22363]: {00} Seek time: 0.0010) mod_dpsearch[22363]: {00} [tree/wrd] ARetrieved rec_id: aed81255 Size: 291-504 mod_dpsearch[22363]: {00} Read 291-504 time: 0.) mod_dpsearch[22363]: {00} Remove old (0) time: 0. mod_dpsearch[22363]: {00} stack.word[7]:telefonuose mod_dpsearch[22363]: {00} Seek time: 0.) mod_dpsearch[22363]: {00} != P.rec_id:bbc811bf P.Item.rec_id:0 mod_dpsearch[22363]: {00} stack.word[9]:telefonai mod_dpsearch[22363]: {00} Seek time: 0.) mod_dpsearch[22363]: {00} [tree/wrd] ARetrieved rec_id: 543df763 Size: 110525-303976 mod_dpsearch[22363]: {00} Read 110525-303976 time: 0.0030) mod_dpsearch[22363]: {00} Remove old (0) time: 0. mod_dpsearch[22363]: {00} stack.word[11]:telefonui mod_dpsearch[22363]: {00} Seek time: 0.) mod_dpsearch[22363]: {00} [tree/wrd] ARetrieved rec_id: 4a68e628 Size: 521-816 mod_dpsearch[22363]: {00} Read 521-816 time: 0.) mod_dpsearch[22363]: {00} Remove old (0) time: 0. mod_dpsearch[22363]: {00} stack.word[13]:telefono mod_dpsearch[22363]: {00} Seek time: 0.) mod_dpsearch[22363]: {00} [tree/wrd] ARetrieved rec_id: 7c7a714c Size: 12919-36408 mod_dpsearch[22363]: {00} Read 12919-36408 time: 0.) mod_dpsearch[22363]: {00} Remove old (0) time: 0. mod_dpsearch[22363]: {00}
[dataparksearch] [Forum] Re: mod_apache не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: mod_apache не работает поиск Выполните команду ./indexer -TW по не будут записаны данные об URL в базе cache mode. Повторите поиск. Эту команду нужно выполнять после каждого индексирования/переиндексирования. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198311988
[dataparksearch] [Forum] Re: mod_apache не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: mod_apache не работает поиск Добавьте команду LogLevel 5 в ваш searchd.conf перестартуйте его. Покажите вывод отладочной информации при поиске. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198311988;page=2
[dataparksearch] [Forum] Re: mod_apache не работает поиск
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: feduska Subject: Re: mod_apache не работает поиск 1. У меня в searchd.conf стоит LogLevel 5 и когда делаю поиск демон searchd выдаёт в консоль то, что я написал прежде... 2. Вопрос из другой оперы: A можно ли искать сразу по двум тегам A и B, но не искать по тегу С - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1198311988;page=2
[dataparksearch] [Forum] Re: segfault на 4.48
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: segfault на 4.48 Регулярно c регулярностью 50% ловлю сегфолты в 4.48 на Debian GNU/Linux 4.0 (Etch), если заставляю индексер перечитывать конфигурацию по HUP. Индексация запускается с ключами -N 2 -r. [pre]Core was generated by `/indexer:[2] URL:http'. Program terminated with signal 11, Segmentation fault. #0 0xb7ef56ab in DpsIndexNextURL () from /usr/local/dpsearch/lib/libdpsearch-4.so (gdb) thread 1 [Switching to thread 1 (process 3413)]#0 0xb7ef56ab in DpsIndexNextURL () from /usr/local/dpsearch/lib/libdpsearch-4.so (gdb) backtrace #0 0xb7ef56ab in DpsIndexNextURL () from /usr/local/dpsearch/lib/libdpsearch-4.so #1 0x0001 in ?? () #2 0x in ?? () (gdb) thread 2 [Switching to thread 2 (process 3414)]#0 0xb7fa8410 in ?? () (gdb) backtrace #0 0xb7fa8410 in ?? () #1 0xb54e43b8 in ?? () #2 0x4000 in ?? () #3 0x081e6988 in ?? () #4 0xb7ab882b in __read_nocancel () from /lib/tls/i686/cmov/libpthread.so.0 #5 0xb7b2ca58 in vio_read () from /usr/lib/libmysqlclient.so.15 #6 0xb7b2cacf in vio_read_buff () from /usr/lib/libmysqlclient.so.15 #7 0xb7b2de65 in net_realloc () from /usr/lib/libmysqlclient.so.15 #8 0xb7b2e188 in my_net_read () from /usr/lib/libmysqlclient.so.15 #9 0xb7b279cf in cli_safe_read () from /usr/lib/libmysqlclient.so.15 #10 0xb7b28045 in cli_read_rows () from /usr/lib/libmysqlclient.so.15 #11 0xb7afc574 in mysql_read_query_result () from /usr/lib/libmysqlclient.so.15 #12 0xb7f6aaa0 in _DpsSQLAsyncQuery () from /usr/local/dpsearch/lib/libdpsearch-4.so #13 0xb77ca39e in sprintf () from /lib/tls/i686/cmov/libc.so.6 #14 0xb7f04206 in DpsCatActionSQL () from /usr/local/dpsearch/lib/libdpsearch-4.so #15 0x082221c0 in ?? () #16 0x in ?? () (gdb) [/pre] - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1194500284
[dataparksearch] [Forum] Re: Оптимизация ReverseAlias
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: Оптимизация ReverseAlias За объяснения алгоритма спасибо, а то из документации это неочевидно совсем. Про \d как альтернативу [0-9] мы тут уже беседовали в прошлом году. у меня на линуксе это поддерживается и я во всех регекспах заменил [0-9] на \d -- работает. Тут в чем-то другом дело. Пока не понимаю в чем. Хотя, мысль одна есть. Если будет верная, напишу тут. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1199303325
[dataparksearch] [Forum] BUG: snapshot dpsearch-4.49-04012008
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: BUG: snapshot dpsearch-4.49-04012008 После сборки снэпшота dpsearch-4.49-04012008 indexer при запуске с пареметрами -N значение -r выводит в лог всю информацию по SQL-запросам. Проверялось на Gentoo Linux 2007.0 (Gentoo Base System release 1.12.10) и на Debian GNU/Linux 4.0r1. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;post=
[dataparksearch] [Forum] Re: Nutch DataparkSearch
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Nutch DataparkSearch А какие у вас критерии лучшести и мощности ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1199635479
[dataparksearch] [Forum] Re: Unaccessible pages and documents
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Marko Hrastovec Subject: Re: Unaccessible pages and documents Hi! I have tried to set up categories and have come to many problems. When nothing worked I switched on MySQL query log and found out the following: If I try to search in categories the following query is issued: SELECT dict.url_id,dict.intag FROM dict, url, urlinfo ic, categories c WHERE dict.word = 'test' AND url.rec_id=dict.url_id AND (c.path LIKE '01%') AND url.rec_id=ic.url_id AND c.rec_id=CAST(ic.sval AS integer) AND ic.sname='Category' ORDER BY url_id,intag; If I try this query in MySQL I get an error in CAST function. When I changed it to CAST(ic.sval AS UNSIGNED integer) the query can be executed but still no results are returned. I looked further and found out that un table urlinfo there are no records with sname value set to 'Category'. That is why I always get an empty result when I try to search in categories. I suspect this is a bug or I don't know how to properly configure these categories. I have created categories with cat_ed.pl and added Category and CategoryIf lines into indexer.conf. indexer.conf is the right configuration file, right? Thanks for bothering with my problems Marko - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1198063278
[dataparksearch] [Forum] Re: Странные записи в таблице server
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: Странные записи в таблице server Постоянно такое чувство, что что-то ускользает от понимания. Вот-вот ухватишь вроде, но не тут-то было. Мы знаем, что: а) Все URL имеют server_id == rec_id такого сервера, parent которого == 0; проверка (одна картинка стоит тысячи слов): [pre]mysql select count(*) from url; +--+ | count(*) | +--+ | 719987 | +--+ 1 row in set (0.00 sec) mysql select count(*) from url u where (select parent from server where rec_id=u.server_id)!=0; +--+ | count(*) | +--+ |0 | +--+ 1 row in set (10.65 sec)[/pre] б) Parent у таких левых серверов != 0, т.е., исходя из леммы а, ни один URL не может иметь их в качестве родителей. Но (!), с другой стороны, эти сервера могут попадать под правила Subnet и/или Realm и, таким образом, страницы с них все же будут проиндексированы, но в качестве родителя такие страницы (URL) будут иметь тот Subnet или Realm, который указан в качестве родителя у таких серверов. Отсюда следует, что единственным критерием попадания таких серверов в таблицу server, если их parent != 0, является их соответствие правилам Subnet и/или Realm. В данное время в эту таблицу кроме подобных серверов попадает и мусор, который никогда не будет проиндексирован (не подпадает ни под одно разрешительное правило). Причем, такое впечатление, что попадает как-то избирательно, т.е. далеко не весь -- мне так показалось. Вопрос изначально был в том, чем это продиктовано? Пожалуйста, объясните подробнее, данный вопрос давно мучает меня. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1197790226
[dataparksearch] [Forum] Re: Unaccessible pages and documents
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Unaccessible pages and documents Please add Category 0 32 to your sections.conf file and verify, that you do not have URLInfoSQL no command in your indexer.conf. Then you'll get categories in urlinfo table filled. Problem with CAST for MySQL has been fixed in snapshot of 4.49 vrsion. What version do you use ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1198063278
[dataparksearch] [Forum] Re: Unaccessible pages and documents
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Marko Hrastovec Subject: Re: Unaccessible pages and documents I have tried to add Category 0 32 but it reported error. I have tried Section Category 0 32. Now errors are gone but no Category rows have been added after reindexing. I am not sure that the line I have added is correct. I don't have URLInfoSQL line in indexer.conf. I am using 4.48. I will download 4.49 and try with it. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1198063278
[dataparksearch] [Forum] Re: использование tag
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ruler Subject: Re: использование tag Добрый день, Максим! Я хотел бы использовать конструкцию ServerDB pgsql://foo:[EMAIL PROTECTED]/portal/links?field=url Но как в этом случае задавать теги, периоды, секции и другие параметры для каждого сервера и или групп серверов? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1183223582
[dataparksearch] [Forum] Re: использование tag
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: использование tag В этом случае вам скорее подойдет команда ServerTable: http://www.dataparksearch.org/dpsearch-srvtable.ru.html - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1183223582
[dataparksearch] [Forum] Re: Все результаты с сайта
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: zabar Subject: Re: Все результаты с сайта Большое Спасибо за оперативный ответ! Ошибка исправилась! Максим, подскажите как реализовать функцию с Вашего поисковика Кто ссылается рылся в шаблонах дистрибутива - там решения нет Спасибо! - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://mmm.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1199987956
[dataparksearch] [Forum] Как проиндексировать несколько сайтов
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Валентин Subject: Как проиндексировать несколько сайтов понимаю что обсуждалось но много почитав понял что не все понимаю... как я себе это представляю, нужно добавить в indexer.conf новый server или что? может как то изменится работа поисковика или что еще, пожалуйста помогите, поясните что и как - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
[dataparksearch] [Forum] Re: Как проиндексировать несколько сайтов
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: zabar Subject: Re: Как проиндексировать несколько сайтов я создал таблицу в базе, в которую через php скрипт загружаю урлы indexer через крон их подцепляет и начинает обхаживать обращение к этой таблице указал в индексере через ServerDB может есть решение и более простое, но оно мне пока неизвестно - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://mmm.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200041214
[dataparksearch] [Forum] Re: Как проиндексировать несколько сайтов
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Валентин Subject: Re: Как проиндексировать несколько сайтов а неужели нельзя тупо добавить server? еще есть вроде какие то многопоточные indexer'ы - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200041214
[dataparksearch] [Forum] Re: Все результаты с сайта
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Все результаты с сайта Для этого нуэно аключить сбор ссылок командой CollectLinks yes в indexer.conf и указать команду Limit link:link так же, как указано выше. Далее в поисковом шаблоне в секции RES добавить в нужном месте код: a href=$(self)?q=$%(q)amp;c=$(c)amp;m=$(m)amp;sp=$(sp)amp;sy=$(sy)amp;s=$(s)amp;link=$(DP_ID)Кто ссылается/a - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://mmm.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1199987956
[dataparksearch] [Forum] Re: sudo
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: sudo Подтверждаю -- не запускается без ключика -f под sudo, setuidgid (из пакета daemontools) или любой другой программой, заменяющей UID/GID процесса. Похоже, не хочет или не может уходить в фоновый режим (демонизироваться). - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1170054870
[dataparksearch] [Forum] Re: percent-encode URL
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Андрей Subject: Re: percent-encode URL Максим, а посоветуйте пожалуйста, куда вставить преобразование, чтобы в выводе search.cgi URL были нормальные. К сожалению, в базе у меня URL со служебными символами. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1197964078
[dataparksearch] [Forum] Re: percent-encode URL
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: percent-encode URL Попробуйте в поисковом шаблоне выводить URL мета-переменной $%(url) - запрещенные символы будут эскейпиться, но для такого способа выдачи не предусмотрена подсветка слов запроса в выводимом значении. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1197964078
[dataparksearch] [Forum] Ошибка урла
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: zabar Subject: Ошибка урла результат поиска ** 21.08.2007г. В питомнике От Шамэль absolute_url Tue, 18 Dec 2007, 13:03:18 MSK - 11K bytes - Score: 0.297% ** заголовок ведет на http://www.урл_поисковика.ru/absolute_url как это исправить и как избавиться от уже напарсеных? Спасибо! - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://mmm.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
[dataparksearch] [Forum] Re: Ошибка урла
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: Ошибка урла Какая версия DataparkSearch используется ? Встречается ли, и если да, то в каком контексте, подстрока absolute_url в ваших файлах конфигурации: indexer.conf и search.htm ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://mmm.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200338069
[dataparksearch] [Forum] Re: Ошибка урла
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: zabar Subject: Re: Ошибка урла забыл добавить, что из 10 результатов 9 нормальных, видимо ошибка наложилась на конкретную страницу - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://mmm.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200338069
[dataparksearch] [Forum] Re: Ошибка урла
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: zabar Subject: Re: Ошибка урла dpsearch-4.48-pqsql - с портов dbmode=cache в indexer.conf и search.htm записи absolute_url - НЕТ! - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://mmm.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200338069
[dataparksearch] [Forum] Re: sudo
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Re: sudo Нет, не остается. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1170054870
[dataparksearch] [Forum] Re: sudo
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: sudo Попробуйте новый снпшот http://www.dataparksearch.org/dpsearch-4.49-15012008.tar.gz В нем при наличие в системе функции daemon(), именно эта функция будет использоваться для демонизации. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=04;topic_id=1170054870
[dataparksearch] [Forum] проблемы с кодировками
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Sniper47 Subject: проблемы с кодировками Здравствуйте, Дамы и Господа! У нас возникла проблема с записью в базу данных русских букв, я просмотрел весь форум, но советы которые там давали в таких случаях нам не помогли! версия MySQL 5.0.18 ОС: 6.2-RELEASE FreeBSD dpsearch-4.49-17012008-mysql пробовали сначала с ko8-r DBAddr mysql://root:[EMAIL PROTECTED]:3306/search/?dbmode=singlecharset=koi8-r LocalCharset koi8-r DefaultLang ru langmap.conf инклудится в нем все нужные (и не нужные) языки есть собирали с ключом --with-extra-charsets=all в базе таблице тоже koi8-r вообщем делали все как написано на форуме но все равно пишeтся ? вместо русских букв, потом попробовали с utf-8, все везде поставили в utf-8 и теперь вместо знаков вопроса просто кракозябры (они разные) вместо кириллицы. Пробовали также указать явно перед сайтом RemoteCharset но ничего не изменилось. Будем Очень признательны если кто-нибудь подскажет в чем проблема! - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
[dataparksearch] [Forum] Re: проблемы с кодировками
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: проблемы с кодировками Какая кодировка у самой базы в MySQL ? Если проиндексировать какую-нибудь страницу с ключом -v5 для indexer, кодировка и язык документа правильно определяются ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200516366
[dataparksearch] [Forum] Re: проблемы с кодировками
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Sniper47 Subject: Re: проблемы с кодировками MySQL-кодировка: UTF-8 Unicode (utf8) Сопоставление соединения с MySQL: utf8 (когда пробовали с утф) и koi8-r (когда пробовали с koi8-r) Попробовали, кодировка и язык определяются правильно! - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200516366
[dataparksearch] [Forum] Re: проблемы с кодировками
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Maxime Subject: Re: проблемы с кодировками попробуйте в файле src/sqldbms.c раскоментарить определение DEBUG_SQL и пересобрать. После этого попробуйте проиндексировать один документ. На экран SQL-запросы будут выводиться в правильной кодировке или уже с вопросиками ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200516366
[dataparksearch] [Forum] Re: percent-encode URL
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Андрей Subject: Re: percent-encode URL Спасибо, но в этом случае перекодируется все, включая двоеточия и слэши в http://. Попробую изменить функцию. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=02;topic_id=1197964078
[dataparksearch] [Forum] Re: проблемы с кодировками
- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Sniper47 Subject: Re: проблемы с кодировками Сделали как Вы сказали, да действительно в консоли русские буквы(настоящие)!!! но в базу пишутся знаки вопросов :( - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1200516366