[
https://issues.apache.org/jira/browse/PDFBOX-4284?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
]
Maruan Sahyoun closed PDFBOX-4284.
----------------------------------
Resolution: Not A Bug
It turned out the issue was in LibreOffce 6.0 and has been resolved in 6.0.5.2
(there might be earlier version in the 6.0 release stream which don't show that
behaviour)
> LibreOffice6 PDF Conversion broke PDFTextStripper result
> ----------------------------------------------------------
>
> Key: PDFBOX-4284
> URL: https://issues.apache.org/jira/browse/PDFBOX-4284
> Project: PDFBox
> Issue Type: Bug
> Components: Parsing
> Affects Versions: 3.0.0 PDFBox
> Environment: Window 10 and CentOS7
> Reporter: David KELLER
> Priority: Major
> Labels: features
> Attachments: libreoffice_5.2-font.png, libreoffice_5.2.pdf,
> libreoffice_5.2.txt, libreoffice_6.0 opened by Acrobat Reader.PNG,
> libreoffice_6.0 opened by JIRA PDF viewer.PNG, libreoffice_6.0-font.png,
> libreoffice_6.0.5.2.pdf, libreoffice_6.0.pdf, libreoffice_6.0.txt,
> original-document.docx
>
>
> here the test program:
> {{public class ExtractTextPdfTest {}}
> {{ }}
> {{ public static void main(String[] args) throws Exception {}}
> {{ // #7272}}
> {{// String documentIn = "c:\\data\\test}}
> {{libreoffice_5.2.pdf";}}
> {{ String documentIn = "c:\\data\\test}}
> {{libreoffice_6.0.pdf";}}
> {{ }}
> {{ try (PDDocument pdDocument = PDDocument.load(new
> File(documentIn))) {}}
> {{ PDFTextStripper stripper = new PDFTextStripper();}}
> {{ String content = stripper.getText(pdDocument);}}
> {{ System.out.println(content);}}
> {{ }}}
> {{ }}
> {{ }}}
> {{}}}
>
> 1/ run PDFTextStripper on a Word document converted by LibreOffice 5.2 in PDF
> result :
> {quote}Réf : #chrono# Le #date#
> Affaire suivie par :
> #recipient.salutation#
> #recipient.name#
> #recipient.streetNumber#
> #recipient.streetName#
> #recipient.zipCode#
> #recipient.locality#
> #object#
> #recipient.salutation#,
> Nous avons bien reçu votre candidature pour le poste de………………………….
> et nous vous
> remercions de l’intérêt que vous portez à notre administration.
> Afin d'examiner votre candidature de manière plus complète, nous
> souhaiterions vous rencontrer.
> Aussi, nous vous proposons un rendez-vous en nos locaux avec M ... ,
> responsable du service de ... , le
> ... à ... heures.
> Nous vous prions d’agréer, #recipient.salutation#, l’expression de nos
> salutations distinguées.
> Le Maire,
> #signature#
> {quote}
>
> 2/ run PDFTextStripper on the same Word document converted by LibreOffice
> 6.0 in PDF
>
> result :
> {quote}Réf : Destinataire
> Affaire suiiiie aar : Adresse
> Code Postal
> Ville
> Paris, le 25/07/2018
> Madame, Moinsieuir
> Nous avons le plaisir de vous informer que suite à la Commission
> d’Attribution de Logement
> qui s’est tenue le xx/xx/xxxx, nous avons décidé de vous attribuer le
> logement situé au xx
> rue xxxxxxxxxxxxxxxxxxxx, 75 000 Paris.
> Les caractéristiuies de ce logemeint soint les suiiiaintes :
> Suirface habitable :
> Tyae de logemeint :
> Garage/Parkiing :
> Mointaint dui loyer :
> Mointaint des charges :
> Mointaint dui déaôt de garainte :
> Date d’eintrée dains les lieuix :
> Les s mointaints arécisés soint à déduiire, le cas échéaint, de l'aide aui
> logemeint (APL, AL) calcuilée et
> commuiiniiuiée aar iotre Caisse d'allocatoins familiales.
> Vouis aiez juisiui’aui xx/xx/xx aouir inouis siginifer l’acceatatoin
> de ce logemeint aar letre
> recommaindée aiec accuisé de réceatoin.
> Vouis ariaint d’agréer, Madame, Moinsieuir, l’exaressioin de mes
> saluitatoins distinguiées.
> Le Maire,
> #siginatuire#
> {quote}
>
>
--
This message was sent by Atlassian JIRA
(v7.6.3#76005)
---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]