[ 
https://issues.apache.org/jira/browse/PDFBOX-4284?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
 ]

Maruan Sahyoun closed PDFBOX-4284.
----------------------------------
    Resolution: Not A Bug

It turned out the issue was in LibreOffce 6.0 and has been resolved in  6.0.5.2 
(there might be earlier version in the 6.0 release stream which don't show that 
behaviour)

> LibreOffice6 PDF Conversion broke PDFTextStripper result  
> ----------------------------------------------------------
>
>                 Key: PDFBOX-4284
>                 URL: https://issues.apache.org/jira/browse/PDFBOX-4284
>             Project: PDFBox
>          Issue Type: Bug
>          Components: Parsing
>    Affects Versions: 3.0.0 PDFBox
>         Environment: Window 10 and CentOS7
>            Reporter: David KELLER
>            Priority: Major
>              Labels: features
>         Attachments: libreoffice_5.2-font.png, libreoffice_5.2.pdf, 
> libreoffice_5.2.txt, libreoffice_6.0 opened by Acrobat Reader.PNG, 
> libreoffice_6.0 opened by JIRA PDF viewer.PNG, libreoffice_6.0-font.png, 
> libreoffice_6.0.5.2.pdf, libreoffice_6.0.pdf, libreoffice_6.0.txt, 
> original-document.docx
>
>
> here the test program:
> {{public class ExtractTextPdfTest {}}
>  {{    }}
>  {{    public static void main(String[] args) throws Exception {}}
>  {{        // #7272}}
>  {{//        String documentIn = "c:\\data\\test}}
> {{libreoffice_5.2.pdf";}}
>  {{        String documentIn = "c:\\data\\test}}
> {{libreoffice_6.0.pdf";}}
>  {{        }}
>  {{        try (PDDocument pdDocument = PDDocument.load(new 
> File(documentIn))) {}}
>  {{            PDFTextStripper stripper = new PDFTextStripper();}}
>  {{            String content = stripper.getText(pdDocument);}}
>  {{            System.out.println(content);}}
>  {{        }}}
>  {{        }}
>  {{    }}}
>  {{}}}
>  
> 1/  run PDFTextStripper on a Word document converted by LibreOffice 5.2 in PDF
>  result :
> {quote}Réf : #chrono# Le #date#
>  Affaire suivie par :
>  #recipient.salutation#
>  #recipient.name#
>  #recipient.streetNumber#
>  #recipient.streetName#
>  #recipient.zipCode#
>  #recipient.locality#
>  #object#
>  #recipient.salutation#,
>  Nous  avons  bien  reçu  votre  candidature  pour  le  poste  de………………………….  
> et  nous  vous
>  remercions de l’intérêt que vous portez à notre administration.
>  Afin d'examiner votre candidature de manière plus complète, nous 
> souhaiterions vous rencontrer.
>  Aussi, nous vous proposons un rendez-vous en nos locaux avec M ... , 
> responsable du service de ... , le
>  ... à ... heures.
>  Nous vous prions d’agréer, #recipient.salutation#, l’expression de nos 
> salutations distinguées.
>  Le Maire,
>  #signature#
> {quote}
>  
> 2/  run PDFTextStripper on the same Word document converted by LibreOffice 
> 6.0  in PDF
>  
>  result :
> {quote}Réf : Destinataire
>  Affaire suiiiie aar : Adresse
>  Code Postal
>  Ville
>  Paris, le 25/07/2018
>  Madame, Moinsieuir
>  Nous avons le plaisir de vous informer que suite à la Commission 
> d’Attribution de Logement 
>  qui s’est tenue le xx/xx/xxxx, nous avons décidé de vous attribuer le 
> logement situé au xx 
>  rue xxxxxxxxxxxxxxxxxxxx, 75 000 Paris.
>  Les caractéristiuies de ce logemeint soint les suiiiaintes : 
>   Suirface habitable :
>   Tyae de logemeint :
>   Garage/Parkiing :
>   Mointaint dui loyer :
>   Mointaint des charges :
>   Mointaint dui déaôt de garainte :
>   Date d’eintrée dains  les lieuix :
>  Les s mointaints arécisés soint à déduiire, le cas échéaint, de l'aide aui 
> logemeint (APL, AL) calcuilée et  
>  commuiiniiuiée aar iotre Caisse d'allocatoins familiales.
>  Vouis  aiez  juisiui’aui  xx/xx/xx  aouir  inouis  siginifer  l’acceatatoin  
> de  ce  logemeint  aar  letre 
>  recommaindée aiec accuisé de réceatoin.
>  Vouis ariaint d’agréer, Madame, Moinsieuir, l’exaressioin de mes 
> saluitatoins distinguiées.
>  Le Maire,
>  #siginatuire#
> {quote}
>  
>  



--
This message was sent by Atlassian JIRA
(v7.6.3#76005)

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to