Púxenche mal o nome do ficheiro html na orde, aínda que o expliquei ben
antes :P

python3 cursivas-html.py ficheiro-html.html

El lun, 1 mar 2021 a las 23:44, Xabier Villar (<xabier.vil...@gmail.com>)
escribió:

> De principio penso que os pdf son algo puñeteiros, a non ser que domines
> algunha librería como che comentan. Pero se tes sorte igual podes pasalos a
> html sen moito problema (con pdftohtml) e despois extraelas cun script
> simple en python coma o que adxunto. Eu probei nun pdf exportado de
> LibreOffice (non soen ser problemáticos) e parece que funciona ben. Proba
> se queres, a ver se hai sorte.
> Ollo, que pdftohtml xenera varios ficheiros na saída e tes que ver en cal
> está o texto (coa opción -s debera ser ficheiro-html.html, se non me
> equivoco)
>
> pdftohtml -s ficheiro.pdf
> python3 cursivas-html.py ficheiro.html
>
> Podes ter que instalar o paquete BeautifulSoup de Python (python-bs4 en
> Ubuntu)
>
> Saúdos!
>
> El lun, 1 mar 2021 a las 18:56, Antón Méixome (<cert...@certima.net>)
> escribió:
>
>> É posible extraer dun PDF as palabras que están en cursiva?
>> Se aplanamos un PDF pérdense certas características que poden ser
>> interesantes para filtrar
>>
>> Poñamos o caso:
>>
>>
>> *vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo
>> demo, xa sábe-lo*
>> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de rir.*
>>
>> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que
>> saísen por orde de ocorrencia (non por orde alfabética)
>>
>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> proxecto@trasno.gal
>> - Correo do administrador - administra...@trasno.gal - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843
>>
>
>
> --
>
> Xabier Villar
>


-- 

Xabier Villar

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7441&h=081605420f0f25b642fe71aa63951f14e71f5254&sa=1786340511

Responderlle a