Pido disculpas por el error ortográfico en el subject, no me di cuenta. Manuel
El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinol...@gmail.com> escribió: > Muchas gracias Carlos. > > Manuel > > El 2 de octubre de 2017, 1:42, Carlos Ortega <c...@qualityexcellence.es> > escribió: > >> Hola, >> >> Hay una adaptación específica a R de una solución comercial, pero que se >> puede usar hasta cierto número de llamdas: pdftools >> >> https://cloud.r-project.org/web/packages/pdftools/index.html >> >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> >> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihida...@jccm.es> >> escribió: >> >>> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener >>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo >>> (visualmente ves todos los documentos igual), resulta que no lo es, y te >>> encuentras "saltos" de página, códigos de cabeceras de tabla, etc. >>> Colocados >>> de forma diferente según el ejemplar de PDF. >>> Si quieres algo que no falle, tendrás que trabajarlo bastante para no >>> dejar >>> margen de error (contemplando toda la casuística que puedas encontrar >>> por el >>> camino). En fin, perdona el rollo... >>> Suerte. >>> >>> >>> Isidro Hidalgo Arellano >>> Observatorio del Mercado de Trabajo >>> Consejería de Economía, Empresas y Empleo >>> http://www.castillalamancha.es/ >>> >>> >>> >>> -----Mensaje original----- >>> De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de >>> Manuel >>> Spínola >>> Enviado el: viernes, 29 de septiembre de 2017 16:47 >>> Para: R <r-help-es@r-project.org> >>> Asunto: [R-es] Minería de testo en R >>> >>> Estimados miembros del grupo, >>> >>> Estoy buscando paquetes de R que permitan hacer minería de textos de >>> archivos PDF o Word que tengan una estructura tabular (cuadros) de >>> resultado >>> de talleres de trabajo donde se tratan diferentes ejes temáticos. >>> >>> Especifico esto porque he visto que algunos paquetes analizan >>> directamente >>> texto de libros, tweets u otras fuentes donde no hay una estructura como >>> cuadros en el texto que se quiere analizar. >>> >>> Desde ya muchas gracias por la ayuda. >>> >>> Saludos, >>> >>> Manuel >>> >>> -- >>> *Manuel Spínola, Ph.D.* >>> Instituto Internacional en Conservación y Manejo de Vida Silvestre >>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA >>> mspin...@una.cr >>> <mspin...@una.ac.cr> mspinol...@gmail.com >>> Teléfono: (506) 8706 - 4662 >>> Personal website: Lobito de río <https://sites.google.com/site >>> /lobitoderio/> >>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> >>> >>> [[alternative HTML version deleted]] >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es@r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es@r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> > > > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional > Apartado 1350-3000 > Heredia > COSTA RICA > mspin...@una.cr <mspin...@una.ac.cr> > mspinol...@gmail.com > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río > <https://sites.google.com/site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > -- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspin...@una.cr <mspin...@una.ac.cr> mspinol...@gmail.com Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es