Unable to convert valid pdf to html

varun bhansaly Tue, 15 Mar 2011 00:14:26 -0700

Hi,
Encountered an exception while converting a pdf to HTML/ text using
pdfbox-app-1.5.0.
The file in this case is "team21_devel.pdf", please note this is a valid PDF
as it gets opened in adobe reader.


I have used the command line utility as
java -jar pdfbox-app-1.5.0.jar ExtractText -html team21_devel.pdf
The Exception :
ExtractText failed with the following exception:
java.io.IOException: Expected='null' actual='nullnullnull'
    at
org.apache.pdfbox.pdfparser.BaseParser.parseDirObject(BaseParser.java:1025)
    at
org.apache.pdfbox.pdfparser.BaseParser.parseCOSArray(BaseParser.java:802)
    at
org.apache.pdfbox.pdfparser.BaseParser.parseDirObject(BaseParser.java:1011)
    at
org.apache.pdfbox.pdfparser.BaseParser.parseCOSDictionaryValue(BaseParser.java:179)
    at
org.apache.pdfbox.pdfparser.BaseParser.parseCOSDictionary(BaseParser.java:292)
    at
org.apache.pdfbox.pdfparser.BaseParser.parseDirObject(BaseParser.java:1000)
    at org.apache.pdfbox.pdfparser.PDFParser.parseObject(PDFParser.java:533)
    at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:180)
    at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:881)
    at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:846)
    at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:771)
    at org.apache.pdfbox.ExtractText.main(ExtractText.java:179)
    at org.apache.pdfbox.PDFBox.main(PDFBox.java:42)

Do let me know if any other information is required.
If someone has a solution, then do share.

-- 
Regards,
Varun Bhansaly

Unable to convert valid pdf to html

Reply via email to