こんにちは。

困っております。

Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化けします。

原因は何で、対応策(Tikaへの設定?など)は、ありますでしょうか?

■読み込むと文字化けするhtmlを添付します。
      ※EUCコードのファイルです。(秀丸エディタの判定では)

ソース:
-----------------------------------------------------
File document = new File("/usr/local/sample.pdf");
Parser parser = new AutoDetectParser(); 
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
Metadata metadata = new Metadata();
parser.parse(new FileInputStream(document), handler, metadata
                                                                         , new 
ParseContext());
String plainText = handler.toString();
System.out.println(plainText);
-----------------------------------------------------


-- 
技術初心者
Title: ÆüËܸì¤Ç¤âʸ»ú²½¤±¤·¤Æ¤·¤Þ¤¹¤Î¤Çº¤¤ë
ÆüËܸì¤À¤±¤É¡¢Ê¸»ú²½¤±¤¹¤ë¡£
ÆüËܸì
close   

Reply via email to