Púxenche mal o nome do ficheiro html na orde, aínda que o expliquei ben antes :P
python3 cursivas-html.py ficheiro-html.html El lun, 1 mar 2021 a las 23:44, Xabier Villar (<xabier.vil...@gmail.com>) escribió: > De principio penso que os pdf son algo puñeteiros, a non ser que domines > algunha librería como che comentan. Pero se tes sorte igual podes pasalos a > html sen moito problema (con pdftohtml) e despois extraelas cun script > simple en python coma o que adxunto. Eu probei nun pdf exportado de > LibreOffice (non soen ser problemáticos) e parece que funciona ben. Proba > se queres, a ver se hai sorte. > Ollo, que pdftohtml xenera varios ficheiros na saída e tes que ver en cal > está o texto (coa opción -s debera ser ficheiro-html.html, se non me > equivoco) > > pdftohtml -s ficheiro.pdf > python3 cursivas-html.py ficheiro.html > > Podes ter que instalar o paquete BeautifulSoup de Python (python-bs4 en > Ubuntu) > > Saúdos! > > El lun, 1 mar 2021 a las 18:56, Antón Méixome (<cert...@certima.net>) > escribió: > >> É posible extraer dun PDF as palabras que están en cursiva? >> Se aplanamos un PDF pérdense certas características que poden ser >> interesantes para filtrar >> >> Poñamos o caso: >> >> >> *vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo >> demo, xa sábe-lo* >> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de rir.* >> >> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que >> saísen por orde de ocorrencia (non por orde alfabética) >> >> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> proxecto@trasno.gal >> - Correo do administrador - administra...@trasno.gal - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843 >> > > > -- > > Xabier Villar > -- Xabier Villar - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal - Administrador - administra...@trasno.gal - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7441&h=081605420f0f25b642fe71aa63951f14e71f5254&sa=1786340511