Hi,

I ran the 2nd page of the file in tika-app, and what I got looked nice.

"Dzięki kompleksowej prezentacji naszej działalności biznesowej i operacyjnej, przybliżamy interesariuszom, a szczególnie inwestorom, instytucjom finansowym i ubezpieczycielom, Jednostkę Dominującą KGHM Polska Miedź S.A. i Grupę Kapitałową KGHM Polska Miedź S.A., nasze działania oraz kierunki rozwoju.

Nasz VII Raport Zintegrowany Grupy Kapitałowej KGHM Pol- ska Miedź S.A. obejmuje wyniki niefinansowe i finansowe dla KGHM Polska Miedź S.A. i Grupy KGHM Polska Miedź S.A. za 2019 rok (okres raportowania 1.01-31.12.2019 r.) [GRI 102- 50]. Zgodnie z naszym zobowiązaniem corocznej publikacji raportu zintegrowanego [GRI 102-52] prezentujemy wpły- wy naszej firmy w zakresie kwestii środowiskowych, ekono- micznych i społecznych. Poprzedni raport zintegrowany za 2018 rok został opublikowany w roku 2019 [GRI 102-51]. Nie dokonywano w nim żadnych korekt [GRI 102-48]. Raport został przygotowany z wykorzystaniem wybranych wskaźni- ków standardu raportowania Global Reporting Initiative (GRI) w wersji Standards."


Why reencode it? Encoding would make sense if you write to a file, then you'd need an OutputStreamWriter.

Tilman

Am 16.12.2020 um 21:15 schrieb Tilman Hausherr:
Please upload your file to a sharehoster, and please detail what you expected and what you got instead, maybe about one specific line that you think is botched. Compare it with the extraction of Adobe Reader.

Tilman

Am 16.12.2020 um 18:21 schrieb Chris Mattmann:
Copying the Tika dev list where I think you will find the help you are looking for 😊




From: Mariusz G <mgru...@gmail.com>
Date: Wednesday, December 16, 2020 at 7:04 AM
To: "Mattmann, Chris A (US 1740)" <chris.a.mattm...@jpl.nasa.gov>
Subject: [EXTERNAL] Tika - problem with Polish encoding


Hello Sir,

I'm writing to you because I tried everything but unsuccessful.

When I use Tika with Polish PDF documents, Polish language is not encoded properly.


This is my code:


from tika import parser
raw = parser.from_file("/Users/mgrub/Downloads/NLP/PCC_Rokita_2019.pdf")
raw = str(raw)
safe_text = raw.encode('UTF-8', errors='ignore')
safe_text = str(safe_text).replace("\n", "").replace("\\", "")
print('--- safe text ---' )
print( safe_text )


I've tried several different encoding standards (ISO-8859, ISO-8859-2, Windows-1250, CP852) but with no success.

If you can help me I will be grateful, because I don't know who can help better than you.


Regards,

Mariusz Grubba




Reply via email to