Il 09/02/2018 20:43, Davide Prina ha scritto:
On 09/02/2018 14:45, Piviul wrote:
pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e
lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad
incollarlo in un file di testo si vedono solo geroglifici.
potrebbe essere che sono stati usati caratteri unicode che sono simili a
quelli alfabetici (alcuni ad occhio sono quasi identici).
Prova a ricercare una parola, nel PDF, che si incolla con geroglifici e
vedi se la trova. Se non la trova probabilmente è questa la spiegazione.
Se cerco un parola di quelle che se copiate vengono incollate con strani
simboli incomprensibili, vedo che alcune volte vengono trovate ma non
sempre, direi che vengono trovate solo se nel pdf il paragrafo che
contiene la parola cercata occupa una sola riga... ma forse non è
nemmeno così... non capisco. Comunque talvolta viene trovata e talvolta
no. Direi comuinque che potresti avere ragione.
Poi puoi provare ad incollare in un documento che supporta l'unicode e
ha quel font usato nel PDF (es: Libreoffice Writer)
questo non è facile da attuare: come faccio a sapere quale font è stato
usato?
:(
Piviul