寺西です。 森田 光貴 wrote: > > しかし、題名どおりにPDFをインデックス化しようとすると > maybe copying protectionの表示がありインデックス化できません。 ... > パスワードも添付されておりませんし、xpdfのlangauge packも導入しています。 > ちなみに読み込んでいるPDFは紙媒体をスキャンしたものもありますし、 > WORDなどからPDF作成したものもあります。(adobe acrobat 7 standard 使用)
ざっと見た限りでは設定に問題はなさそうです。 それでは、特定の PDF ファイルで発生するのか、全ての PDF ファイルで 発生するのかを確認してみてください。 特定の PDF ファイルで問題が発生する場合は、そのファイルを pdftotext で変換してみてください。 $ pdftotext -enc ECU-JP file.pdf out.txt 何かエラーメッセージが表示されるでしょうか? out.txt ファイルは作成されるでしょうか? 作成された場合、0バイトの ファイルになっていないでしょうか? 確認してみてください。 ちなみに 紙媒体をスキャンしたもの については画像データしか PDF に 含まれていない場合は、テキストは抽出できません。 スキャンした時に OCR でテキストを抽出して、それが PDF に含まれて いる場合は抽出できると思います。 また、公開しても大丈夫なサンプルデータを提供していただけるなら、 手元の環境でテキスト抽出が可能かどうかを確認することぐらいは できます。 -- ===================================================================== 寺西 忠勝(TADAMASA TERANISHI) yw3t-t...@asahi-net.or.jp http://www.asahi-net.or.jp/~yw3t-trns/index.htm Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja