Grazas polas ideas a todos. A opción de python creo que a podo tentar Conseguín unha transformación a rtf e tamén a html e html-5 que conservan as cursivas. Quero facer unha proba de concepto e necesito extraer pero me temo que o PDF orixinal tampouco é canónico como os que fai LibreOffice.
Por exemplo o texto que busco é así: abstemio, abstención, absterse, absterxente, abstinencia, abstracción, abstracto, abstraer, obsceno, obstáculo, obsti- nado, obstruír, subscrición, subscrito, subscritor, substancia, substan- cial, substantivación, substantivar, substantivo, substitución, substituír, substituto, substrato Está como html: abstemio, abstención, absterse, absterxente,<br>abstinencia, abstracción, abstracto, abstraer, obsceno, obstáculo, obsti-<br>nado, obstruír, subscrición, subscrito, subscritor, substancia, substan-<br>cial, substantivación, substantivar, substantivo, substitución, substituír,<br>substituto, substrato. E como html5 abstemio, <span class="_ _1"></span>abstención, absterse, absterxente,</span></div><div class="t m0 x1a he y14 ff3 fs5 fc0 sc0 ls4 ws0">abstinencia, abstracción, abstracto, <span class="_ _2"></span>abstraer<span class="_ _2c"></span>, <span class="_ _2"></span>obsceno, obstáculo, obsti-</div><div class="t m0 x1a he y15 ff3 fs5 fc0 sc0 ls4 ws0">nado, <span class="_ _5"> </span>obstruír<span class="_ _0"></span>, <span class="_ _5"></span>subscrición, <span class="_ _5"></span>subscrito, <span class="_ _5"></span>subscritor<span class="_ _2c"></span>, <span class="_ _5"> </span>substancia, <span class="_ _5"> </span>substan-</div><div class="t m0 x1a he y3b ff3 fs5 fc0 sc0 ls4 ws0">cial, <span class="_ _7"></span>substantivación, <span class="_ _4"></span>substantivar<span class="_ _0"></span>, <span class="_ _7"></span>substantivo, <span class="_ _4"></span>substitución, <span class="_ _7"></span>substituír<span class="_ _0"></span>,</div><div class="t m0 x1a he y3c ff3 fs5 fc0 sc0 ls4 ws0">substituto, <span class="_ _2"></span>substrato Teño que probar a idea de Xosé no Draw. O luns, 1 de mar. de 2021 ás 23:48, Xabier Villar (<xabier.vil...@gmail.com>) escribiu: > Púxenche mal o nome do ficheiro html na orde, aínda que o expliquei ben > antes :P > > python3 cursivas-html.py ficheiro-html.html > > El lun, 1 mar 2021 a las 23:44, Xabier Villar (<xabier.vil...@gmail.com>) > escribió: > >> De principio penso que os pdf son algo puñeteiros, a non ser que domines >> algunha librería como che comentan. Pero se tes sorte igual podes pasalos a >> html sen moito problema (con pdftohtml) e despois extraelas cun script >> simple en python coma o que adxunto. Eu probei nun pdf exportado de >> LibreOffice (non soen ser problemáticos) e parece que funciona ben. Proba >> se queres, a ver se hai sorte. >> Ollo, que pdftohtml xenera varios ficheiros na saída e tes que ver en cal >> está o texto (coa opción -s debera ser ficheiro-html.html, se non me >> equivoco) >> >> pdftohtml -s ficheiro.pdf >> python3 cursivas-html.py ficheiro.html >> >> Podes ter que instalar o paquete BeautifulSoup de Python (python-bs4 en >> Ubuntu) >> >> Saúdos! >> >> El lun, 1 mar 2021 a las 18:56, Antón Méixome (<cert...@certima.net>) >> escribió: >> >>> É posible extraer dun PDF as palabras que están en cursiva? >>> Se aplanamos un PDF pérdense certas características que poden ser >>> interesantes para filtrar >>> >>> Poñamos o caso: >>> >>> >>> * vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo >>> demo, xa sábe-lo * >>> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de >>> rir.* >>> >>> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que >>> saísen por orde de ocorrencia (non por orde alfabética) >>> >>> >>> >>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>> proxecto@trasno.gal >>> - Correo do administrador - administra...@trasno.gal - de - Proxecto >>> Trasno >>> - Cancelar a subscrición no URL: >>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843 >>> >> >> >> -- >> >> Xabier Villar >> > > > -- > > Xabier Villar > > - Lista de correo de Proxecto Trasno - Enviar correo a - > proxecto@trasno.gal > - Correo do administrador - administra...@trasno.gal - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7441&h=19caaabf5033201eabfce99a8f2d97c6c4736317&sa=1411960391 > - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal - Administrador - administra...@trasno.gal - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7442&h=b1c512a6f088008cdf8ea1331b6bd2d7ad5343ea&sa=593365008