Saludos a todos.
Actualmente investigo en procesamiento de textos, generalmente ya convertidos a 
PDFs como suelen ser los repositorios de tesis de nuestras universidades.

Programo en python, y todas las aplicaciones que estoy generando están en este 
lenguaje por el requisito de bajo consumo y rendimiento que hace falta en los 
entornos diversos (low hardware) que encontramos en el sector educacional.

Recientemente trabajando con PDFMiner he descubierto que hay PDFs cuyos box de 
"textos" pueden haberse generado de forma "cuasimodo" (es lo único que se me 
ocurre decir). Así por ejemplo: en un artículo científico escrito a 2 columnas 
generado con Acrobat Distiller 8.1.0 (Windows) puede contener en un box el 
texto de "el encabezamiento de la página, el primer párrafo de la columna 2, y 
el primer párrafo de la columna 1" (en ese orden aunque parezca increíble). 
PDFMiner no resuelve este problema de ordenar, su algoritmo al menos en su 
versión del 2011(Ubuntu12.04) es anticuado (esto es concluyente tras 20 días de 
investigación).

Otro problema vital es recuperar la "estructura lógica del documento" (incluye 
las notas hechas durante una revisión), lo cual es imposible de acuerdo a la 
app que generó el PDF y al estandar utilizado en el mismo.

Ante este problema, decidí revisar la generación de PDFs desde LibreOffice, 
Lyx, Kile que son los 3 editores de textos que uso frecuentemente. Descubrí que 
la pantalla de LibreOffice -> Archivo -> Exportar en formato PDF, es 
sencillamente la más versátil y permite al usuario generar PDFs más informados 
de los que luego se pueden extraer todas estas informaciones de forma fácil.

¿Alguien ha chocado con este problema antes? ¿Encontró alguna información que 
me sirva para mejorar la recuperación?
¿Alguna idea de otro editor de texto que haga un buen trabajo en este sentido?
¿Alguna información sobre las versiones de PDF o las libs de generación que me 
ayuden a entender como es posible la existencia de los PDFs Cuasimodo?
¿Cómo generar estos PDFs con notas y etiquetas desde latex?

Gracias de antemano.

-- 
“Me volví reaccionario, fiel a mis antiguos principios. Prefiero correr el 
riesgo de equivocarme con los pobres que tener la pretensión de acertar sin 
ellos”
Frei Betto

Atte. Ing. Abel Meneses Abad
Profesor del Centro de Estudios de Electrónica y Tecnologías de la Información 
(CEETI)
Facultad de Ingeniería Eléctrica. Universidad Central Marta Abreu de Las Villas.
http://www.ceeti.uclv.edu.cu


______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

Responder a