On Wed, 21 Nov 2001, Piotr Zaprawa wrote:

> ja poszedlbym linia troche ... tansza mozna uzyc programu pdftotext
> (pdf2text czy jakos tak), a wynik przeszukac czyms tam mozna by
> odrobine przerobic kod zrodlowy tego, by od razu robil to to.

  Pozwalam sobie zwrocic uwage, ze PDFy z polskimi literami moga byc
  kodowane na kilka sposobow, i nie zawsze konwersja do tekstu musi dac
  zadawalajace rezultaty. Oto fragment mojego grafika.pdf:

Problem jest o tyle trudny,  ze w  standardowych" (cokolwiek to oznacza)
czcionkach PostScrip-
towych polskich liter nie ma! Dost epne s  a oczywi´scie (tak darmowe jak
i komercyjne) zesta-
wy polskich czcionek Type1. Nie zawsze jednak u zywane aplikacje potrafia
z nich skorzysta´c.

  (literki byly skladane z dwy znaczkow, co czasami daje calkiem czytelny
  wynik ('s'c) ale czasami nie ( e,  a). ł, na przyklad skladane jest jako
  l + "spacja" pod ktora bywa /...

  Co prawda ghostscriptowe ps-to-text posiada jakas wiedze o "Cork
  encoding", ale...
--
Wojtek  ---(___C'>

Odpowiedź listem elektroniczym