野宮です. In the Message;
Subject : [Namazu-users-ja 1055] Re: gcnmz が非常な時間を要するようになった Message-ID : <[メールアドレス保護]> Date & Time: Sat, 05 Apr 2008 23:47:16 +0900 [寺西さん] == Tadamasa Teranishi <[メールアドレス保護]> has written: 寺西さん> これはテキストとして処理していた時と、HTML として処理した時との話です 寺西さん> ので、それらの比較をしないと意味がありません。 なるほど. 寺西さん> 基本的に HTML にマルチパートという概念はありません。 言われてみれば,確かに.^^;; 寺西さん> また、どういった理由で -K オプションで base64 なパートが無視される 寺西さん> と思ったのでしょう。 base64のパートには記号が多いということからの全くの勘違いでした. 小生>> 3. インデックス作成範囲を指定する形式(これは, 小生>> http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示 小生>> しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に 小生>> 小生>> $SUMMARY_PAT = "<body>(.*?)</body>"; 小生>> 小生>> を加えて, 寺西さん> 応用しようとしているのでしょうが、元のパッチの意味を理解せずに 寺西さん> やっているために、意図した通りには動いていないでしょう。 寺西さん> <body> 寺西さん> ここすべて(もちろんタグも含めて)が要約になっているはず。 寺西さん> </body 寺西さん> です。 ようやく,意味を了解するに至りました. あくまで,Summary なんですね. 寺西さん>>> よくわかりませんが、text/html 形式で取り込む前に、添付ファイルを削除 寺西さん>>> する処理を追加すれば良いのではないかと思います。 寺西さん> ということです。ご自身で </html> タグの後ろを削除したものを mknmz 寺西さん> に渡してください。 と,いうことになりますね. 寺西さん> もちろん、そういう処理を html.pl に追加してもいいですが...。 やりたいのは山々ですが..... ^^;;; ともあれ,インデックスが損傷しているのでは(思い当たる節があります)と,考 え,インデックスを再作成しました. その際,廣瀬さんがお示しになった html.pl.dif を当てると共に,.mknmzrc に $SUMMARY_PAT = "<body>(.*?)</body>"; を加え,尚且つ, $ON_MEMORY_MAX の値を 50MB から 300MB に増やし,mknmz を 走らせ,床に就きました.今日の夕方位まで掛かるだろうと思っていましたが,何 と,朝起きましたら終了しており,観ましたら,所要時間は6時間弱で,大変驚きま した.「$ON_MEMORY_MAX」は,今更ながら,「Namazuの豆知識」を参考にさせて戴 きました.m(_ _)m この上で gcnmz を走らせた結果に就いては,後日,改めて報告させて戴きます. --- 野宮 賢 mail-to: nomiya @ galaxy.dti.ne.jp 「私たちが今日直面している化学物質の危険性に関する疑問に対し、通常の 科学的な正確さをもって答えようとすれば、たぶんさらに数十年を要するで あろう。」 -- J. V. Rodricks -- _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja