[DataparkSearch Forum] Производительность. Несколько вопросов.

DataparkSearchForum Wed, 23 Aug 2006 22:18:02 -0700

- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Niko
Subject: Производительность. Несколько вопросов.


Производительность
Перенес dpsearch на другой сервер (более мощный) и в результате получил падение 
производительности при поиске в 3-4 раза. :(
Количество документов - ~200 000.
Вот лог searchd:
---------------------------------------
searchd[26809]: {00} Affixes: 0, Spells: 0, Synonyms: 81476, Acronyms: 0, 
Stopwords: 914
...
searchd[26809]: {00}  127.0.0.1 Allow by default
searchd[26842]: {1000} Waiting for command header
searchd[26842]: {1000} Received header cmd=3 len=139
searchd[26842]: {1000} Received words len=139 
words='q=74&cmd=Search%21&BrowserCharset=windows-1251&IP=83.142.161.11&g-lc=en&ExcerptSize=300&ExcerptPadding=40&DoExcerpt=yes&tmplt=search.htm'
searchd[26842]: {1000} Query: 74 [Charset: windows-1251]
searchd[26842]: {1000} Segment lang:
searchd[26842]: {1000} Sent total_found packet 32 bytes 
buf='Total_found=44227(44227)'
searchd[26842]: {1000} Sent WWL packet 126 bytes cmd=8 len=118 nwords=2
searchd[26842]: {1000} Sent PerSite packet 176916 bytes cmd=12 len=176908
searchd[26842]: {1000} Sent URLDATA packet 884548 bytes cmd=13 len=884540
searchd[26842]: {1000} Sent words packet 353824 bytes cmd=3 len=353816 
nwords=-1222377464
searchd[26842]: {1000} Waiting for command header
searchd[26842]: {1000} Received header cmd=5 len=688
searchd[26842]: {1000} Received DOCINFO command len=688 ndocs=20
searchd[26842]: {1000} ResAction in 0.44 sec.
searchd[26842]: {1000} [] Retrieve rec_id: 8c80275d
searchd[26842]: {1000} [] Retrieved rec_id: 8c80275d Size: 142228 Ratio:  9.25%
.....
searchd[26842]: {1000} Excerpts in 8.11 sec.
searchd[26842]: {1000} Sent doc_info packet 21191 bytes
searchd[26842]: {1000} Waiting for command header
searchd[26842]: {1000} Received header cmd=14 len=5
searchd[26842]: {1000} Sent clone_info packet 19 bytes
searchd[26842]: {1000} Waiting for command header
searchd[26842]: {1000} Received header cmd=14 len=5
searchd[26842]: {1000} Sent clone_info packet 19 bytes
searchd[26842]: {1000} Waiting for command header
searchd[26842]: {1000} Received header cmd=14 len=5
searchd[26842]: {1000} Sent clone_info packet 19 bytes
searchd[26842]: {1000} Waiting for command header
searchd[26842]: {1000} Received header cmd=14 len=5
.....
searchd[26842]: {1000} Received goodbye command. Work time: 24.517 sec.
searchd[26842]: {1000} Quit
---------------------------------------
Работает в связке searchd, cached

PS: После того как сделал "DetectClones no" на обоих серверах - разница 
достигла 10 раз. (на одном 1 секунда, на другом 10 секунд)
PS2: что посоветует, чтобы сократить это время "Excerpts in 8.11 sec."???


Еще несколько вопросов.
1) DetectClones что делает? Каких именно клонов определяет? Уж больно много 
времени на это тратится.
2) Как можно отключить TrackQueries? одноименная опция помоему исключена уже. :(
3) Если схема работы такая: сервер1 (indexer), сервер2 (searchd, cached, 
stored, search.cgi), сервер3 (mysql), то можно ли в searchd.conf указать 
DoStore yes, чтобы избежать обращения к stored (обращятся напрямую к индексу)? 
А indexer при этом будет работать через stored.
4) Когда stored простаивает, он будет оптимизировать хранилище? и будет ли при 
этом высвобождаться место, если при индексировании удаляются старые не нужные 
документы?
5) Я удалял около 5-10тыс. документов из индекса размером в 200 тыс. 
документов. И при этом места на диске не осводилось. Что нужно сделать для того 
чтобы подчистить окончательно? (а то получается что индекс только растет, хотя 
количество документов приемрно держится на одном уровне)

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.com/cgi-bin/simpleforum.cgi?fid=05;post=

[DataparkSearch Forum] Производительность. Несколько вопросов.

Reply via email to