[
https://issues.apache.org/jira/browse/PDFBOX-1361?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=13420448#comment-13420448
]
Andreas Lehmkühler commented on PDFBOX-1361:
--------------------------------------------
Looks like a sorting issue. Try to activate the sorting using
textStripper.setSortByPosition(true)
> damaged arabic text after extraction from pdf
> ---------------------------------------------
>
> Key: PDFBOX-1361
> URL: https://issues.apache.org/jira/browse/PDFBOX-1361
> Project: PDFBox
> Issue Type: Bug
> Components: Text extraction
> Affects Versions: 1.7.0
> Environment: Windows 7
> Eclipse v: last release
> PDFBOX 1.7.0.jar
> icu4j-49.jar
> Reporter: amin bouja
> Labels: newbie
> Original Estimate: 48h
> Remaining Estimate: 48h
>
> I am using PDFBOX 1.7.0 with the icu4j-49.jar to extract multilingual text
> from a pdf file, using this code:
> ***********************************************************************************|
> PDDocument pddDocument = PDDocument.load(new File("arabic.pdf")); |
> PDFTextStripper textStripper = new PDFTextStripper();
> |
> String Text = textStripper.getText(pddDocument);
> |
> System.out.println(Text);
> |
> ***********************************************************************************
>
> I'am having as Output :
> 05:71 - 2102يوليوز 22األحد
> ي بدنه عند محطة للحافالت، اليوم األحد، ليصاب بحروق خطيرة وذلك بعد أضرم جندي
> إسرائيلي سابق يستخدم كرسيا متحركا النار ف
> .يومين من وفاة محتج متأثرا باصابات ناجمة عن حادث مماثل
> But it should be:
> الأحد 22 يوليوز 2012 - 17:58
> أضرم جندي إسرائيلي سابق يستخدم كرسيا متحركا النار في بدنه عند محطة للحافلات،
> اليوم الأحد، ليصاب بحروق خطيرة وذلك بعد يومين من وفاة محتج متأثرا باصابات
> ناجمة عن حادث مماثل.
>
--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators:
https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira