Hi,
I ran the 2nd page of the file in tika-app, and what I got looked nice.
"Dzięki kompleksowej prezentacji naszej działalności biznesowej i
operacyjnej, przybliżamy interesariuszom, a szczególnie inwestorom,
instytucjom finansowym i ubezpieczycielom, Jednostkę Dominującą KGHM
Polska Miedź S.A. i Grupę Kapitałową KGHM Polska Miedź S.A., nasze
działania oraz kierunki rozwoju.
Nasz VII Raport Zintegrowany Grupy Kapitałowej KGHM Pol- ska Miedź S.A.
obejmuje wyniki niefinansowe i finansowe dla KGHM Polska Miedź S.A. i
Grupy KGHM Polska Miedź S.A. za 2019 rok (okres raportowania
1.01-31.12.2019 r.) [GRI 102- 50]. Zgodnie z naszym zobowiązaniem
corocznej publikacji raportu zintegrowanego [GRI 102-52] prezentujemy
wpły- wy naszej firmy w zakresie kwestii środowiskowych, ekono- micznych
i społecznych. Poprzedni raport zintegrowany za 2018 rok został
opublikowany w roku 2019 [GRI 102-51]. Nie dokonywano w nim żadnych
korekt [GRI 102-48]. Raport został przygotowany z wykorzystaniem
wybranych wskaźni- ków standardu raportowania Global Reporting
Initiative (GRI) w wersji Standards."
Why reencode it? Encoding would make sense if you write to a file, then
you'd need an OutputStreamWriter.
Tilman
Am 16.12.2020 um 21:15 schrieb Tilman Hausherr:
Please upload your file to a sharehoster, and please detail what you
expected and what you got instead, maybe about one specific line that
you think is botched. Compare it with the extraction of Adobe Reader.
Tilman
Am 16.12.2020 um 18:21 schrieb Chris Mattmann:
Copying the Tika dev list where I think you will find the help you
are looking for 😊
From: Mariusz G <mgru...@gmail.com>
Date: Wednesday, December 16, 2020 at 7:04 AM
To: "Mattmann, Chris A (US 1740)" <chris.a.mattm...@jpl.nasa.gov>
Subject: [EXTERNAL] Tika - problem with Polish encoding
Hello Sir,
I'm writing to you because I tried everything but unsuccessful.
When I use Tika with Polish PDF documents, Polish language is not
encoded properly.
This is my code:
from tika import parser
raw = parser.from_file("/Users/mgrub/Downloads/NLP/PCC_Rokita_2019.pdf")
raw = str(raw)
safe_text = raw.encode('UTF-8', errors='ignore')
safe_text = str(safe_text).replace("\n", "").replace("\\", "")
print('--- safe text ---' )
print( safe_text )
I've tried several different encoding standards (ISO-8859,
ISO-8859-2, Windows-1250, CP852) but with no success.
If you can help me I will be grateful, because I don't know who can
help better than you.
Regards,
Mariusz Grubba