Re: FW: [EXTERNAL] Tika - problem with Polish encoding

Tilman Hausherr Thu, 17 Dec 2020 02:20:03 -0800

Hi,

I ran the 2nd page of the file in tika-app, and what I got looked nice.

"Dzięki kompleksowej prezentacji naszej działalności biznesowej ioperacyjnej, przybliżamy interesariuszom, a szczególnie inwestorom,instytucjom finansowym i ubezpieczycielom, Jednostkę Dominującą KGHMPolska Miedź S.A. i Grupę Kapitałową KGHM Polska Miedź S.A., naszedziałania oraz kierunki rozwoju.

Nasz VII Raport Zintegrowany Grupy Kapitałowej KGHM Pol- ska Miedź S.A.obejmuje wyniki niefinansowe i finansowe dla KGHM Polska Miedź S.A. iGrupy KGHM Polska Miedź S.A. za 2019 rok (okres raportowania1.01-31.12.2019 r.) [GRI 102- 50]. Zgodnie z naszym zobowiązaniemcorocznej publikacji raportu zintegrowanego [GRI 102-52] prezentujemywpły- wy naszej firmy w zakresie kwestii środowiskowych, ekono- micznychi społecznych. Poprzedni raport zintegrowany za 2018 rok zostałopublikowany w roku 2019 [GRI 102-51]. Nie dokonywano w nim żadnychkorekt [GRI 102-48]. Raport został przygotowany z wykorzystaniemwybranych wskaźni- ków standardu raportowania Global ReportingInitiative (GRI) w wersji Standards."

Why reencode it? Encoding would make sense if you write to a file, thenyou'd need an OutputStreamWriter.


Tilman

Am 16.12.2020 um 21:15 schrieb Tilman Hausherr:

Please upload your file to a sharehoster, and please detail what youexpected and what you got instead, maybe about one specific line thatyou think is botched. Compare it with the extraction of Adobe Reader.
Tilman

Am 16.12.2020 um 18:21 schrieb Chris Mattmann:
Copying the Tika dev list where I think you will find the help youare looking for 😊
From: Mariusz G <mgru...@gmail.com>
Date: Wednesday, December 16, 2020 at 7:04 AM
To: "Mattmann, Chris A (US 1740)" <chris.a.mattm...@jpl.nasa.gov>
Subject: [EXTERNAL] Tika - problem with Polish encoding


Hello Sir,

I'm writing to you because I tried everything but unsuccessful.
When I use Tika with Polish PDF documents, Polish language is notencoded properly.
This is my code:


from tika import parser
raw = parser.from_file("/Users/mgrub/Downloads/NLP/PCC_Rokita_2019.pdf")
raw = str(raw)
safe_text = raw.encode('UTF-8', errors='ignore')
safe_text = str(safe_text).replace("\n", "").replace("\\", "")
print('--- safe text ---' )
print( safe_text )
I've tried several different encoding standards (ISO-8859,ISO-8859-2, Windows-1250, CP852) but with no success.
If you can help me I will be grateful, because I don't know who canhelp better than you.
Regards,

Mariusz Grubba

Re: FW: [EXTERNAL] Tika - problem with Polish encoding

Reply via email to