from:"question.answer...@gmail.com"

Re: [Tika] I have a question. --> "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary"

2016-09-16 Thread question.answer...@gmail.com

Thank you for your answer :) By the way do you I can if you wait an answer from you? I do not know what should I where to questions about pdfbox. -- syosinnsya > Could be a bug in PDFBox. Might want to ask on the pdfbox users' list. > > -Original Message- > From

[Tika] I have a question. --> "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary"

2016-09-16 Thread question.answer...@gmail.com

An exception is raised in line:"parser.parse(new Fil ". "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary" Why exception occurs? In other dozens of PDF, the exception does not occur. below, my program.

I garbled characters when you import a Chinese PDF.

2016-09-15 Thread question.answer...@gmail.com

I garbled characters when you import a Chinese PDF. (in EUC, Shift-JIS, ) I want to read in UTF-8. Or should I what coding? below, it's my program now. - File document = new File(strFile_fullpath); ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); Meta

Re: I want to parse Then garbled in Tika. Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com

Metadata(); > > > > parser.parse(new FileInputStream(document), handler, metadata > > > > > > > > > > > > , new ParseContext()); String plainText = handler.toString(); > > > > System.out.println(plainText); > > > > -------

Re: I want to parse Then garbled in Tika. Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com

files do result PDF --> HTML --> Tika do analysis. --> String (Java UTF-8) TXT --> -- question.answer...@gmail.com > I, in any way, Tika, you can EUC and shift-jis and UTF-8 of html and PDF > reading? >

I want to parse Then garbled in Tika. Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com

I, in any way, Tika, you can EUC and shift-jis and UTF-8 of html and PDF reading? Moreover, I, without garbled in String, want to put converted to UTF-8. I, I want you to tell me how the program. I want to parse Then garbled in Tika. Garbled. -- question.answer...@gmail.com > Sorry, ca

Re: Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread question.answer...@gmail.com

Do you, says the text of the protected PDF files can not be parsed by Tika? I, if the specification of Tika, you give up the Perth. (あなたは、保護されたPDFファイルのテキストをTikaでパースできないと言っていますか？私は、Tikaの仕様なら、パースを諦めます。) Is the specification of Tika? -- question.answer...@gmail.com > Relying on goo

Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com

arset=EUC_JP"); > parser.parse(new FileInputStream(document), handler, metadata > , > new ParseContext()); String plainText = handler.toString(); > > > -Original Message- > From: question.answe

訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com

Tikaで読み込むと文字化けするファイルは、このメールに添付してあるものです。 ※先程のメールに添付したのは、秀丸エディタで保存したときに、文字コードが変わったようで、文字化けしません。ーこんにちは。困っております。 Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化けします。原因は何で、対応策（Tikaへの設定？など）は、ありますでしょうか？ ■読み込むと文字化けするhtmlを添付します。 ※EUCコードのファイルです。（秀丸エディタの判定では）ソー

Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com

こんにちは。困っております。 Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化けします。原因は何で、対応策（Tikaへの設定？など）は、ありますでしょうか？ ■読み込むと文字化けするhtmlを添付します。 ※EUCコードのファイルです。（秀丸エディタの判定では）ソース： - File document = new File("/usr/local/sample.pdf"); Parser parser = new AutoDe

Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread question.answer...@gmail.com

皆様、始めまして。 Tika初心者です。いきなりですが、表記件についてご質問させてください。 Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしているのですが、これは、仕様でしょうか？設定などで回避して文字化けなしで取り込む方法はありますでしょうか？ ※保護されていないPDFは、文字化けなく、取り込めます。原因は何で、対応策（Tikaへの設定？など）は、ありますでしょうか？ソース： - File document = new File("/us

Apache Tikaで、PDFの本文内の文字が連続する現象発生

2016-09-14 Thread question.answer...@gmail.com

皆様、始めまして。 Tika初心者です。いきなりですが、表記件についてご質問させてください。 Javaで、Apache Tikaで、PDFのパース処理をしています。ほとんどのPDFは、正常に、読み込めるのですが、パースエラーになったり、パースできても、本文内の文字が連続する現象発生します。ここで、お聞きしたいのは、「本文内の文字が連続する現象」の原因と対策方法です。パースで取り出した長文の中から同じようなパターンの一部を下記へ抜粋。 ⇒ 「(1)(1)(1)(1)林火林火林火林火DBDBDBDB」おそらく、PDFの「(1)風林火山用DB」が書か

Re: [Tika] I have a question. --> "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary"

[Tika] I have a question. --> "Exception : org.apache.pdfbox.cos.COSArray cannot be cast to org.apache.pdfbox.cos.COSDictionary"

I garbled characters when you import a Chinese PDF.

Re: I want to parse Then garbled in Tika. Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

Re: I want to parse Then garbled in Tika. Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

I want to parse Then garbled in Tika. Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

Re: Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

Re: 訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

訂正：Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

Apache Tikaで、PDFの本文内の文字が連続する現象発生

12 matches

Site Navigation

Mail list logo

Footer information