Hello
I used Tika (of course in Nutch) to parse some persian pdf files. some of
the files clearly transformed to a plain text. but about some of them,
output was corrupted. I used ICU4J v4 library and the text changed to
right-to-left mode. but the mentioned problem didn't resolve. insofar as
Tika can not understand any charachter of input persian pdf file!
I copy this text via Document Viewer in Linux: this is a clearly persian
text !
--------------------------
هر روز پس از نماز صبح، سوره مباركه الرحمن را تا "فباي آلاء ربكما تكذبان"
بخواند.
) اين يعني 21 آيه اول سوره ، كه در قرآن رسم الخط "عثمانطه" تقريبا يك نصف
صفحه است. (
همچنين در روايات از حضرت رسول )ص( و ائمه اطهار )ع( آمده كه چند چيز براي قوت
حافظه مفيد است:
1- مسواك كردن 2- روزه گرفتن 3- قرائت قرآن؛ مخصوصا آيه الكرسي
4- خوردن عسل 5- خوردن عدس 6- خوردن گوشت نزديک گردن
--------------------------
Tike returns this output !
--------------------------
92 @A 8 * B
C9D !D ) (?) =/
>
(<) , 8 ;
8 #
+ 9!:
L
#) 4 M() * 0>
* -3 IA J
- 2 (+ G
H -1
(+ J 5#+C 0T J (+ O - 6 R . (+ O - 5 PH. (+ O -4
--------------------------
can anyone help me?
thanks a lot