Hola Diego, por pasos: 1. Lo primero que necesitas es extraer las palabras clave buscadas del search log interno. No he trabajado con Nuxeo, pero igual por aquí tienes una pista, todo es hablarlo con los chicos de informática: http://doc.nuxeo.org/xwiki/bin/view/Main/LuceneSearch?text=search%20log
Y si las próximas versiones de Nuxeo funcionan con Lucene como buscador, también podrás usar su search log. Bien, asumo que no vas a poder (en principio) conectar el search log con el log de navegación, que sería lo ideal, cosa que sí podrías hacer si usáramos (en el contexto de una web) Google Analytics, por ejemplo (ver http://www.google.com/support/googleanalytics/bin/answer.py?answer=75817 ) 2. Una vez tengas el search log, pásatelo a un excel o similar. Si tienes más conocimientos, puedes usar una herramienta estadística o de Data Mining, como Weka, SPSS, etc. Un search log te dará una serie de datos por defecto, ver http://www.sedic.es/JornadasGI06_Jorge_Serrano.pdf 3. Busca tus indicadores, por ejemplo: - Ranking de búsquedas (frases clave, no sólo "palabras sueltas") ordenadas de lo más buscado a lo menos por período de tiempo. - Lo mismo, pero de palabras sueltas. - Ranking de búsquedas con "0" respuestas. - Etc. 4. Con eso podrás analizar y saber: - lo que más se busca, - lo que menos (que no es poco importante, sobre todo si lo correlacionas con las preferencias que se dan a ciertos contenidos por parte de los directivos, que no suelen correlacionar, je) - cómo se busca (sintagmas nominales, códigos numéricos que responden a un departamento o a un concepto, etc.) - cuándo se busca (¿los servicios de recursos humanos son más utilizados al pedir las vacaciones o no?, este manual se pide siempre en Agosto y hasta ahora no se actualizaba hasta principios de Septiembre, etc) - generar un documento marco con sinónimos, reenvíos, etc, un tesauro basado en el lenguaje natural de tus usuarios. 5. Otra cosa es luego, cómo vas a poder aprovechar esa información para mejorar la recuperación de información. Ahí tienes varias estrategias, dependiendo de tu situación: - Jugar con el algoritmo para que entienda las jergas una vez las has descubierto, con reenvíos, sinónimos, etc. (ahí te pueden ayudar los chicos de bitext.com, por ejemplo, compañeros de lista iwetel) - Permitir que los trabajadores o que el administrador pueda generar best bets, una solución no muy elegante precísamente, pero efectiva en entornos limitados, como se puede hacer por ejemplo con Google Search Appliance (ellos lo llaman KeyMatches, ver http://code.google.com/apis/searchappliance/documentation/60/admin_searchexp/ce_improving_search.html) - Jugar con el contenido para realizar lo que denomino "Intranet SEO" ( http://www.human-computer.net/blog/2007/12/06/intranet-seo/) y, conociendo cómo "piensa" el buscador interno, educar a los trabajadores para generar los metadatos, etc., necesarios para una mejor indexación (por ejemplo, usar siempre al lado de un código númerico o de jerga, un apartado en el que aparezca el "lenguaje natural" al que hace referencia) - Etc. Por cierto, los experimentos realizados indican que para Google Search Appliance, los documentos que cuentan con metadatos (Dublin Core, MARC...) se encuentran mejor que los documentos "libres", debido a la enorme basura que pueden crear excels, etc. en una intranet. Espero que sirva de ayuda. -- Jorge Serrano-Cobos Departamento de Contenidos http//www.masmedios.com Redes Sociales: http://www.facebook.com/profile.php?id=590138596 http://www.linkedin.com/in/jorgeserranocobos http://jorge-serrano-cobos.neurona.com Miembro del Grupo Thinkepi http://www.thinkepi.net Web personal: http://trucosdegoogle.blogspot.com 2009/7/13 diego gonzalez <diegoglezl...@gmail.com> > Estimados compañeros: > Trabajamos con Nuxeo un gestor documental. ¿quisera saber como elegir las > palabras clave en un gestor documental, para optimizar las busquedas?. > Un saludo y gracias. > > > ---------------------------------------------------- > Los archivos de IWETEL pueden ser consultados en: > http://listserv.rediris.es/archives/iwetel.html > ---------------------------------------------------- > > ---------------------------------------------------- Los artículos de IWETEL son distribuidos gracias al apoyo y colaboración técnica de RedIRIS - Red Académica española - (http://www.rediris.es) ----------------------------------------------------