Hola Jose, Yo también estoy interesado en el tema, especialmente en el caso de castellano. Algunos enlaces: http://r-es.org/tiki/GITPLN#main&ui-page=cssmenu0-4 https://cran.r-project.org/web/views/NaturalLanguageProcessing.html http://156.35.138.29/
Por si resulta de utilidad, un TFM introductorio para el tratamiento de texto en inglés es este http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1475.pdf. Un saludo, Rubén. El 3/10/2017 8:43, "Gilsanz, Jose Luis" <jluis.gils...@eu.jll.com> escribió: > Hola: > > Me gustaría que me recomendarais paquetes o alguna forma de "hincarle el > diente" para empezar a investigar en la siguiente cuestión. > > El proyecto trata de que, a partir de un numero grande de documentos pdf > que contienen, básicamente, Notas Simples del Registro de la Propiedad > deseamos extraer para cada uno de esos documentos una serie de ítems de > información, a saber: > -Finca Registral > -Registro de la Propiedad > -Referencia Catastral (si la hubiera) > -IDUFIR o CUR (identificadores únicos de finca registral, si las hubiera) > > Los documentos provienen de muy diversas fuentes por lo que la información > no se podría extraer con minería de textos "pura" ya que, por ejemplo, la > finca registral puede venir especificada como: > -FINCA DE TOLEDO Nº: XXXXXXX > -Nº Finca: FINCA DE PILAR DE LA HORADADA Nº: XXXXXXX > -Finca registral: XXXXXXX > -REGISTRAL XXXXXX > -FINCA DE MARBELLA (Sección 03) Nº: XXXXXX > -Finca: XXXXXX > > Siendo un total profano en la materia, creo que se puede definir como un > proyecto a tratar usando un Procesamiento de Lenguaje Natural, en tanto que > se necesita de un análisis semántico de los textos vista la variedad de > formas que hay de expresar el mismo concepto con textos distintos. > Desconozco si existe algún tipo de proceso de Aprendizaje Automático que se > pueda también aplicar para que el proceso vaya "aprendiendo" como se puede > ir encontrando la información de los distintos ítems de forma > complementaria al PLN. > > He localizado esta web: https://cran.r-project.org/web/views/ > NaturalLanguageProcessing.html en la que hay multitud de > paquetes/herramientas para análisis de este tipo pero me gustaría que me > indicarais cual o cuales creéis que son los más apropiados para este caso > concreto o si tengo que enfocar el tema por otro lado completamente > distinto. > > Mil gracias por vuestros consejos. > > Un saludo > > > JLL Valoraciones, S.A. > Registration number: A-28806222. > Registered Office: Pº de la Castellana, 130 - 1ª ; 28046 Madrid > > This e-mail is for the use of the intended recipient(s) only. If you have > received this e-mail in error, please notify the sender immediately and > then delete it. If you are not the intended recipient, you must not use, > disclose or distribute this e-mail without the author's prior permission. > We have taken precautions to minimise the risk of transmitting software > viruses, but we advise you to carry out your own virus checks on any > attachment to this message. We cannot accept liability for any loss or > damage caused by software viruses. If you are the intended recipient and > you do not wish to receive similar electronic messages from us in future > then please respond to the sender to this effect > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es