[ 
https://issues.apache.org/jira/browse/PDFBOX-4904?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
 ]

Maruan Sahyoun updated PDFBOX-4904:
-----------------------------------
    Attachment: 152-0130-20-B-Ö-43.txt

> Bold text leads to wrong order - Text extraction
> ------------------------------------------------
>
>                 Key: PDFBOX-4904
>                 URL: https://issues.apache.org/jira/browse/PDFBOX-4904
>             Project: PDFBox
>          Issue Type: Bug
>          Components: Parsing, PDModel
>    Affects Versions: 2.0.20
>         Environment: JDK 8
>            Reporter: Ronald Bergmann
>            Priority: Minor
>         Attachments: 152-0130-20-B-Ö-43.pdf, 152-0130-20-B-Ö-43.txt
>
>
> When extracting the text from a PDF bold text seems to be out of order under 
> some conditions.
>  
> {code:java}
> try (PDDocument doc = PDDocument.load(new File("152-0130-20-B-Ö-43.pdf"))) {
>     PDFTextStripper stripper = new PDFTextStripper();
>     String contents = stripper.getText(doc);
>     System.out.println(contents);
> }
> {code}
> See section w) - the text should be:
> _*Präqualifizierte Unternehmen* führen den Nachweis der Eignung durch den 
> Eintrag in_
>  _die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V._
>  _(Präqualifikationsverzeichnis). ..._
> But it actually is:
>  _führen den Nachweis der Eignung durch den Eintrag in *Präqualifizierte 
> Unternehmen*_
>  _die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V._
>  _(Präqualifikationsverzeichnis)._
>  
> I attached an example PDF.
>  
> /edit: pdfjs and Acrobat can copy/paste the text in order.



--
This message was sent by Atlassian Jira
(v8.3.4#803005)

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to