寺西です。 野宮 賢 / NOMIYA Masaru wrote: > > 寺西さん> また、どういった理由で -K オプションで base64 なパートが無視される > 寺西さん> と思ったのでしょう。 > > base64のパートには記号が多いということからの全くの勘違いでした.
-K オプションは、全角文字と、半角のアルファベット、数字以外の文字を 削除するオプションに過ぎません。 (内部で、全角文字の記号の一部は半角文字に変換しますが、上記の条件は 変換後に適用されます。) Base64 の記号は、普通は '+', '-', '=' の三種類ですので、これらの文字が 削除されるだけです。 > 小生>> 3. インデックス作成範囲を指定する形式(これは, > 小生>> http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示 > 小生>> しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に > 小生>> > 小生>> $SUMMARY_PAT = "<body>(.*?)</body>"; > 小生>> > 小生>> を加えて, > > 寺西さん> 応用しようとしているのでしょうが、元のパッチの意味を理解せずに > 寺西さん> やっているために、意図した通りには動いていないでしょう。 ... > ようやく,意味を了解するに至りました. > あくまで,Summary なんですね. summary であることはご理解いただいたようですが、全体の意味はまだ理解 されていないような...。 > ともあれ,インデックスが損傷しているのでは(思い当たる節があります)と,考 インデックスは新規に作り直していますよね? インデックスの更新では、Base64 のゴミ文字列で大きくなったインデックス は、その文書が更新されない限り、大きいままですよ。 > その際,廣瀬さんがお示しになった html.pl.dif を当てると共に,.mknmzrc に > > $SUMMARY_PAT = "<body>(.*?)</body>"; 何のためにこれをやったのでしょう。 パッチの意味と、あなたが手を加えた変更によってどのような処理を行うこと になるのか、本当にわかっているのでしょうか? 少なくとも gcnmz の時間の話と、</html> タグの後ろを削除しなければなら ない話には、これは関係しませんが...。 > を加え,尚且つ, $ON_MEMORY_MAX の値を 50MB から 300MB に増やし,mknmz を > 走らせ,床に就きました.今日の夕方位まで掛かるだろうと思っていましたが,何 > と,朝起きましたら終了しており,観ましたら,所要時間は6時間弱で,大変驚きま > した.「$ON_MEMORY_MAX」は,今更ながら,「Namazuの豆知識」を参考にさせて戴 > きました.m(_ _)m $ON_MEMORY_MAX は mknmz にしか影響しません(gcnmz には無関係)が、 マシンの実メモリとは直接関係ありませんので、必要ならばもっと大きな 値を設定しても構いません。実メモリ以上でも構いません。 # ただし、設定値を大きくすると消費メモリは多少なりとも増えますが。 この値は、処理する文書ファイルの総量で決めると良いでしょう。 > この上で gcnmz を走らせた結果に就いては,後日,改めて報告させて戴きます. ...ん〜。 > ということです。ご自身で </html> タグの後ろを削除したものを mknmz > に渡してください。 > もちろん、そういう処理を html.pl に追加してもいいですが...。 ということをしないと意味がありませんけど? -- ===================================================================== 寺西 忠勝(TADAMASA TERANISHI) [メールアドレス保護] http://www.asahi-net.or.jp/~yw3t-trns/index.htm Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja