いそべと申します。

はじめて投稿させて頂きます。
失礼がありましたらお許し下さい。

現在MLアーカイブのHTML化をして、検索にはnamazuを
使わせて頂いてます。

Subject: [HOGE:00003] てすとです。

のような形のMLのシーケンスを検索するとき、
00003
で検索すると、HITしません。
+subject:00003
で検索すると、ちゃんとHITします。

ただ、このMLは現在3000通くらいなんですけど、
700通を越えたあたりから、検索したシーケンス
ナンバーより値が4つくらいずれてHITしてしまいます。

つまり
+subject:00800
で検索したのに
00797
のメールがHITしてしまいます。。

ブラウザからはちゃんと+subject:00800がPOST
されているように見えます。(参考ヒット数のところに
表示されてるし)

で、自分が知りたいのは、
1. なぜ検索したナンバーがずれてしまうのか。。
2. こういう現象を経験された方はいらっしゃるか。
3. なぜ00003のように単純に検索したときにHITしないのか。

というところです。
特に3については、他のnamazu検索システムを使ったサイト
ではちゃんと使えるのを確認してます。
それに、
Subjectの[シーケンス:番号] 件名
のうち、番号のみがHITしてくれないのです。。

あと1についてですが、MHonArc(mlist2html)を使って
html化したのですが、一部生成が失敗して虫食い
状態になってます。
例えばmsg00001〜msg00010のうち、msg00009が抜けて
いるとか。
でも、検索でずれ始めるのはシーケンス710番くらいからで、
その辺で確かに虫食いは起きていますが、もっと前でも
虫食いは発生してます。
それに、たとえMLが歯抜けになっていても、indexの構築
には問題はないとおもうんですが、どうでしょう。

どうかご教授いただきたく、よろしくお願いいたします。

■環境
OS: SunOS 5.8(sparc)
Namazu: 2.0.16
perl: 5.8.7
gcc: 3.4.2
nkf: Network Kanji Filter Version 2.0 (4/0401/Shinji Kono)
Apache: 2.0.55(パッケージバージョン)

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@namazu.org
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

メールによる返信