Yauheni Salopiy created PDFBOX-3189:
---------------------------------------
Summary: java.io.IOException is thrown from both
NonSequentialPDFParser and PDFParser
Key: PDFBOX-3189
URL: https://issues.apache.org/jira/browse/PDFBOX-3189
Project: PDFBox
Issue Type: Bug
Components: Text extraction
Affects Versions: 1.8.10
Reporter: Yauheni Salopiy
On parsing of complex PDF document both NonSequentialPDFParser and PDFParser
throw java.io.IOException (different causes).
NonSequentialPDFParser:
Caused by: java.io.*IOException*
at org.apache.pdfbox.filter.FlateFilter.decode(FlateFilter.java:109)
at org.apache.pdfbox.cos.COSStream.doDecode(COSStream.java:379)
at org.apache.pdfbox.cos.COSStream.doDecode(COSStream.java:291)
at
org.apache.pdfbox.cos.COSStream.getUnfilteredStream(COSStream.java:225)
at
org.apache.pdfbox.pdfparser.PDFObjectStreamParser.<init>(PDFObjectStreamParser.java:64)
at
org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseObjectDynamically(NonSequentialPDFParser.java:1493)
PDFParser:
Caused by: java.io.*IOException*: Error: Expected a long type at offset 465,
instead got
'163111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111'
at org.apache.pdfbox.pdfparser.BaseParser.readLong(BaseParser.java:1695)
at
org.apache.pdfbox.pdfparser.BaseParser.readObjectNumber(BaseParser.java:1623)
at
org.apache.pdfbox.pdfparser.PDFObjectStreamParser.parse(PDFObjectStreamParser.java:99)
at
org.apache.pdfbox.cos.COSDocument.dereferenceObjectStreams(COSDocument.java:683)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:255)
Please, see in attachments full StackTrace for both cases and failing document
for reference.
--
This message was sent by Atlassian JIRA
(v6.3.4#6332)
---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]