Re: [Tika] I have a question. --> "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary"

2016-09-16 Thread question.answer...@gmail.com
Thank you for your answer :) By the way do you I can if you wait an answer from you? I do not know what should I where to questions about pdfbox. -- syosinnsya > Could be a bug in PDFBox. Might want to ask on the pdfbox users' list. > > -Original Message- > From

[Tika] I have a question. --> "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary"

2016-09-16 Thread question.answer...@gmail.com
An exception is raised in line:"parser.parse(new Fil ". "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary" Why exception occurs? In other dozens of PDF, the exception does not occur. below, my program.

I garbled characters when you import a Chinese PDF.

2016-09-15 Thread question.answer...@gmail.com
I garbled characters when you import a Chinese PDF. (in EUC, Shift-JIS, ) I want to read in UTF-8. Or should I what coding? below, it's my program now. - File document = new File(strFile_fullpath); ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); Meta

Re: I want to parse Then garbled in Tika. Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
Metadata(); > > > > parser.parse(new FileInputStream(document), handler, metadata > > > > > > > > > > > > , new ParseContext()); String plainText = handler.toString(); > > > > System.out.println(plainText); > > > > -------

Re: I want to parse Then garbled in Tika. Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
files do result PDF --> HTML --> Tika do analysis. --> String (Java UTF-8) TXT --> -- question.answer...@gmail.com > I, in any way, Tika, you can EUC and shift-jis and UTF-8 of html and PDF > reading? >

I want to parse Then garbled in Tika. Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
I, in any way, Tika, you can EUC and shift-jis and UTF-8 of html and PDF reading? Moreover, I, without garbled in String, want to put converted to UTF-8. I, I want you to tell me how the program. I want to parse Then garbled in Tika. Garbled. -- question.answer...@gmail.com > Sorry, ca

Re: Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread question.answer...@gmail.com
Do you, says the text of the protected PDF files can not be parsed by Tika? I, if the specification of Tika, you give up the Perth. (あなたは、保護されたPDFファイルのテキストをTikaでパースできないと言って いますか? 私は、Tikaの仕様なら、パースを諦めます。) Is the specification of Tika? -- question.answer...@gmail.com > Relying on goo

Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
arset=EUC_JP"); > parser.parse(new FileInputStream(document), handler, metadata > , > new ParseContext()); String plainText = handler.toString(); > > > -Original Message- > From: question.answe

訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
Tikaで読み込むと文字化けするファイルは、このメールに添付してあるものです。 ※先程のメールに添付したのは、秀丸エディタで保存したときに、 文字コードが変わったようで、文字化けしません。 ー こんにちは。 困っております。 Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化けします。 原因は何で、対応策(Tikaへの設定?など)は、ありますでしょうか? ■読み込むと文字化けするhtmlを添付します。 ※EUCコードのファイルです。(秀丸エディタの判定では) ソー

Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
こんにちは。 困っております。 Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化けします。 原因は何で、対応策(Tikaへの設定?など)は、ありますでしょうか? ■読み込むと文字化けするhtmlを添付します。 ※EUCコードのファイルです。(秀丸エディタの判定では) ソース: - File document = new File("/usr/local/sample.pdf"); Parser parser = new AutoDe

Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread question.answer...@gmail.com
皆様、始めまして。 Tika初心者です。 いきなりですが、表記件についてご質問させてください。 Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしているのですが、 これは、仕様でしょうか? 設定などで回避して文字化けなしで取り込む方法はありますでしょうか? ※保護されていないPDFは、文字化けなく、取り込めます。 原因は何で、対応策(Tikaへの設定?など)は、ありますでしょうか? ソース: - File document = new File("/us

Apache Tikaで、PDFの本文内の文字が連続する現象発生

2016-09-14 Thread question.answer...@gmail.com
皆様、始めまして。 Tika初心者です。 いきなりですが、表記件についてご質問させてください。 Javaで、Apache Tikaで、PDFのパース処理をしています。 ほとんどのPDFは、正常に、読み込めるのですが、パースエラーになったり、 パースできても、本文内の文字が連続する現象発生します。 ここで、お聞きしたいのは、「本文内の文字が連続する現象」の原因と対策方法です。 パースで取り出した長文の中から同じようなパターンの一部を下記へ抜粋。 ⇒ 「(1)(1)(1)(1)林火林火林火林火DBDBDBDB」 おそらく、PDFの「(1)風林火山用DB」が書か