On Wed, 21 Nov 2001, Piotr Zaprawa wrote:
> ja poszedlbym linia troche ... tansza mozna uzyc programu pdftotext
> (pdf2text czy jakos tak), a wynik przeszukac czyms tam mozna by
> odrobine przerobic kod zrodlowy tego, by od razu robil to to.
Pozwalam sobie zwrocic uwage, ze PDFy z polskimi literami moga byc
kodowane na kilka sposobow, i nie zawsze konwersja do tekstu musi dac
zadawalajace rezultaty. Oto fragment mojego grafika.pdf:
Problem jest o tyle trudny, ze w standardowych" (cokolwiek to oznacza)
czcionkach PostScrip-
towych polskich liter nie ma! Dost epne s a oczywi´scie (tak darmowe jak
i komercyjne) zesta-
wy polskich czcionek Type1. Nie zawsze jednak u zywane aplikacje potrafia
z nich skorzysta´c.
(literki byly skladane z dwy znaczkow, co czasami daje calkiem czytelny
wynik ('s'c) ale czasami nie ( e, a). ł, na przyklad skladane jest jako
l + "spacja" pod ktora bywa /...
Co prawda ghostscriptowe ps-to-text posiada jakas wiedze o "Cork
encoding", ale...
--
Wojtek ---(___C'>