[jira] [Commented] (TIKA-3642) Getting java.lang.OutOfMemoryError: Java heap space when parsing PDF file

Tim Allison (Jira) Mon, 10 Jan 2022 12:36:12 -0800


    [ 
https://issues.apache.org/jira/browse/TIKA-3642?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=17472287#comment-17472287
 ]


Tim Allison commented on TIKA-3642:
-----------------------------------

I trust that Tilman will correct if I’m wrong, but that parameter sets when 
PDFBox caches to disk. If the required memory goes above that limit, then write 
to disc. So, you won’t get truncation from that.

> Getting java.lang.OutOfMemoryError: Java heap space when parsing PDF file
> -------------------------------------------------------------------------
>
>                 Key: TIKA-3642
>                 URL: https://issues.apache.org/jira/browse/TIKA-3642
>             Project: Tika
>          Issue Type: Bug
>            Reporter: Tika User
>            Priority: Major
>
> When parsing large PDF files(1.65 GB) we are getting out of memory error. The 
> version we are using 2.0.25(pdfbox)
> java.lang.OutOfMemoryError: Java heap space at 
> org.apache.pdfbox.pdfparser.COSParser.isString



--
This message was sent by Atlassian Jira
(v8.20.1#820001)

[jira] [Commented] (TIKA-3642) Getting java.lang.OutOfMemoryError: Java heap space when parsing PDF file

Reply via email to