Yauheni Salopiy created PDFBOX-3189: ---------------------------------------
Summary: java.io.IOException is thrown from both NonSequentialPDFParser and PDFParser Key: PDFBOX-3189 URL: https://issues.apache.org/jira/browse/PDFBOX-3189 Project: PDFBox Issue Type: Bug Components: Text extraction Affects Versions: 1.8.10 Reporter: Yauheni Salopiy On parsing of complex PDF document both NonSequentialPDFParser and PDFParser throw java.io.IOException (different causes). NonSequentialPDFParser: Caused by: java.io.*IOException* at org.apache.pdfbox.filter.FlateFilter.decode(FlateFilter.java:109) at org.apache.pdfbox.cos.COSStream.doDecode(COSStream.java:379) at org.apache.pdfbox.cos.COSStream.doDecode(COSStream.java:291) at org.apache.pdfbox.cos.COSStream.getUnfilteredStream(COSStream.java:225) at org.apache.pdfbox.pdfparser.PDFObjectStreamParser.<init>(PDFObjectStreamParser.java:64) at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseObjectDynamically(NonSequentialPDFParser.java:1493) PDFParser: Caused by: java.io.*IOException*: Error: Expected a long type at offset 465, instead got '163111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111' at org.apache.pdfbox.pdfparser.BaseParser.readLong(BaseParser.java:1695) at org.apache.pdfbox.pdfparser.BaseParser.readObjectNumber(BaseParser.java:1623) at org.apache.pdfbox.pdfparser.PDFObjectStreamParser.parse(PDFObjectStreamParser.java:99) at org.apache.pdfbox.cos.COSDocument.dereferenceObjectStreams(COSDocument.java:683) at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:255) Please, see in attachments full StackTrace for both cases and failing document for reference. -- This message was sent by Atlassian JIRA (v6.3.4#6332) --------------------------------------------------------------------- To unsubscribe, e-mail: dev-unsubscr...@pdfbox.apache.org For additional commands, e-mail: dev-h...@pdfbox.apache.org