野宮です. In the Message;
Subject : [Namazu-users-ja 1053] Re: gcnmz が非常な時間を要するようになった Message-ID : <[メールアドレス保護]> Date & Time: Fri, 04 Apr 2008 00:43:01 +0900 [寺西さん] == Tadamasa Teranishi <[メールアドレス保護]> has written: 寺西さん> 寺西です。 小生>> # mknmz -azEK update ~/News.nmz ~/var/news 小生>> 小生>> と,日々走らせています.( ~/var/news 配下には,凡そ 63.5万ファイルが 小生>> あります). 寺西さん> インデックス分けたらどうでしょうか? 寺西さん> 2つに分けると、通常、個々のインデックスの作成時間は1/2以下になります。 寺西さん> gcnmz も同様に個々の処理時間はそれぞれ 1/2 以下になり、トータル時間は 寺西さん> 短縮されます。 確かに,そういう手がありますね. 寺西さん> また、-a を日常的に使うのはどうかと思いますよ。 そうでしたか.m(_ _)m 小生>> この base64 な添付ファイルを含むものが増えた為に時間が掛かるようになった, 小生>> という理解は間違いでしょうか? 寺西さん> あまりにも情報が少ないので何ともいえませんが、その可能性が高い 寺西さん> のではないでしょうか? 寺西さん> たぶん、インデックスのサイズがその前後で随分変わったんではないかと 寺西さん> 思いますよ。 どうにも府に落ちません,つまり,mknmz に -K というオプションを付けているの で base64 なパートは無視される筈では?,と思いましたので,テストをしてみま した. 件のファイル群は,emacs-w3m の shimbun で取り込んだものでして,ファイルの形 式は,基本的に, <html> <head> [...] </head> <body> html 形式の本文 </body> </html> base64 の添付ファイル というものです. ここで, 1. オプション無し,即ち, # mknmz -O ~/Test ~/var/foo でインデックスを作成 2. オプション有り,即ち, # mknmz -zEK ~/Test1 ~/var/foo でインデックスを作成, 3. インデックス作成範囲を指定する形式(これは, http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示 しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に $SUMMARY_PAT = "<body>(.*?)</body>"; を加えて, # mknmz -O ~/Test2 ~/var/foo でインデックスを作成, 4. 3 のオプションを変えて,即ち, # mknmz -zEK ~/Test4 ~/var/foo という四通りでやってみました.その結果,NMZ.i,NMZ.w 等のファイル・サイズは, 1の場合 2272837 2008-04-05 14:05 NMZ.i 2193676 2008-04-05 14:05 NMZ.ii [...] 20570875 2008-04-05 14:05 NMZ.w 2193676 2008-04-05 14:05 NMZ.wi 2の場合, 1764002 2008-04-05 14:06 NMZ.i 1660960 2008-04-05 14:06 NMZ.ii [...] 10582829 2008-04-05 14:06 NMZ.w 1660960 2008-04-05 14:06 NMZ.wi 3の場合. 2272837 2008-04-05 14:09 NMZ.i 2193676 2008-04-05 14:09 NMZ.ii [...] 20570875 2008-04-05 14:09 NMZ.w 2193676 2008-04-05 14:09 NMZ.wi 4の場合, 1764002 2008-04-05 14:10 NMZ.i 1660960 2008-04-05 14:10 NMZ.ii [...] 10582829 2008-04-05 14:10 NMZ.w 1660960 2008-04-05 14:10 NMZ.wi となりました.因みに,ファイル数は,509件です. 意外でしたのは,インデックス作成範囲の指定が今や意味が無いという点でした. ともあれ,これらの結果を観ますと,mknmz の -K オプションは,base64 なパート をインデックス作成対象外としているように思えるのですが,如何でしょうか? だとすると,何故 gcnmz でえらく時間が掛かるようになったのか..... (_ _? --- 野宮 賢 mail-to: nomiya @ galaxy.dti.ne.jp 「私たちが今日直面している化学物質の危険性に関する疑問に対し、通常の 科学的な正確さをもって答えようとすれば、たぶんさらに数十年を要するで あろう。」 -- J. V. Rodricks -- _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja