Grazas polas ideas a todos.
A opción de python creo que a podo tentar

Conseguín unha transformación a rtf e tamén a html e html-5 que conservan
as cursivas.
Quero facer unha proba de concepto e necesito extraer pero me temo que o
PDF orixinal tampouco é canónico como os que fai LibreOffice.

Por exemplo o texto que busco é así:
abstemio, abstención, absterse, absterxente,
abstinencia, abstracción, abstracto, abstraer, obsceno, obstáculo, obsti-
nado, obstruír, subscrición, subscrito, subscritor, substancia, substan-
cial, substantivación, substantivar, substantivo, substitución, substituír,
substituto, substrato


Está como html:
abstemio, abstención, absterse, absterxente,<br>abstinencia, abstracción, 
abstracto, abstraer, obsceno, obstáculo, obsti-<br>nado,  obstruír,  
subscrición,  subscrito,  subscritor,  substancia,  substan-<br>cial, 
substantivación, substantivar, substantivo, substitución, 
substituír,<br>substituto, substrato.


E como html5
abstemio, <span class="_ _1"></span>abstención, absterse,
absterxente,</span></div><div class="t m0 x1a he y14 ff3 fs5 fc0 sc0
ls4 ws0">abstinencia, abstracción, abstracto, <span class="_
_2"></span>abstraer<span class="_ _2c"></span>, <span class="_
_2"></span>obsceno, obstáculo, obsti-</div><div class="t m0 x1a he y15
ff3 fs5 fc0 sc0 ls4 ws0">nado, <span class="_ _5">
</span>obstruír<span class="_ _0"></span>, <span class="_
_5"></span>subscrición, <span class="_ _5"></span>subscrito, <span
class="_ _5"></span>subscritor<span class="_ _2c"></span>, <span
class="_ _5"> </span>substancia, <span class="_ _5">
</span>substan-</div><div class="t m0 x1a he y3b ff3 fs5 fc0 sc0 ls4
ws0">cial, <span class="_ _7"></span>substantivación, <span class="_
_4"></span>substantivar<span class="_ _0"></span>, <span class="_
_7"></span>substantivo, <span class="_ _4"></span>substitución, <span
class="_ _7"></span>substituír<span class="_ _0"></span>,</div><div
class="t m0 x1a he y3c ff3 fs5 fc0 sc0 ls4 ws0">substituto, <span
class="_ _2"></span>substrato


Teño que probar a idea de Xosé no Draw.


O luns, 1 de mar. de 2021 ás 23:48, Xabier Villar (<xabier.vil...@gmail.com>)
escribiu:

> Púxenche mal o nome do ficheiro html na orde, aínda que o expliquei ben
> antes :P
>
> python3 cursivas-html.py ficheiro-html.html
>
> El lun, 1 mar 2021 a las 23:44, Xabier Villar (<xabier.vil...@gmail.com>)
> escribió:
>
>> De principio penso que os pdf son algo puñeteiros, a non ser que domines
>> algunha librería como che comentan. Pero se tes sorte igual podes pasalos a
>> html sen moito problema (con pdftohtml) e despois extraelas cun script
>> simple en python coma o que adxunto. Eu probei nun pdf exportado de
>> LibreOffice (non soen ser problemáticos) e parece que funciona ben. Proba
>> se queres, a ver se hai sorte.
>> Ollo, que pdftohtml xenera varios ficheiros na saída e tes que ver en cal
>> está o texto (coa opción -s debera ser ficheiro-html.html, se non me
>> equivoco)
>>
>> pdftohtml -s ficheiro.pdf
>> python3 cursivas-html.py ficheiro.html
>>
>> Podes ter que instalar o paquete BeautifulSoup de Python (python-bs4 en
>> Ubuntu)
>>
>> Saúdos!
>>
>> El lun, 1 mar 2021 a las 18:56, Antón Méixome (<cert...@certima.net>)
>> escribió:
>>
>>> É posible extraer dun PDF as palabras que están en cursiva?
>>> Se aplanamos un PDF pérdense certas características que poden ser
>>> interesantes para filtrar
>>>
>>> Poñamos o caso:
>>>
>>>
>>> * vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo
>>> demo, xa sábe-lo *
>>> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de
>>> rir.*
>>>
>>> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que
>>> saísen por orde de ocorrencia (non por orde alfabética)
>>>
>>>
>>>
>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>> proxecto@trasno.gal
>>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>>> Trasno
>>> - Cancelar a subscrición  no URL:
>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843
>>>
>>
>>
>> --
>>
>> Xabier Villar
>>
>
>
> --
>
> Xabier Villar
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> proxecto@trasno.gal
> - Correo do administrador - administra...@trasno.gal - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7441&h=19caaabf5033201eabfce99a8f2d97c6c4736317&sa=1411960391
>

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7442&h=b1c512a6f088008cdf8ea1331b6bd2d7ad5343ea&sa=593365008

Responderlle a