angel escribió:
El vie, 29-08-2008 a las 17:44 +0200, L. Paz escribió:
Hola.

Expongo mi problema.
Necesitaría que me recomendarais un programa/utilidad que permitiera
la indexación del contenido de varios directorios residentes en varias
particiones de varios discos duros de un servidor. Estos directorios
contienen colecciones de ficheros en varios formatos. La mayor parte
-más de un 95%- son ficheros de texto (ascii crudo, documentos de
varias versiones del viejo WordPerrect, documentos de casi todas la
versiones de MsWord, pdf, odt). También hay algunas ficheros de
presentaciones, hojas de calculo, sonido y video. Son ficheros
generados desde mediados de los 80, que estaban dispersos por
diferentes servidores y que estamos tratando de reunir en una sola
máquina para construir una especie de archivo digital. Se trata de
unos 310.000 archivos y, por supuesto, no tenemos recursos para darles
ningún tratamiento documental (p.ej., asignarles metadatos),
organizarlos en colecciones y contruir un repositorio digital al
estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares.
 Lo que buscamos es una herramienta que nos permita realizar búsquedas
de texto en el título y/o contenido de los ficheros (para los de
sonido y video, me conformaría que los localizara por el título) y que
tuviera una interfaz de interrogación/presentación de resultados lo
más amigable posible para usuarios finales (no informáticos, ni
documentalistas). Los ideal sería que las consultas se pudieran
realizar a través de una página web.

Saludos a todo/as, y gracias anticipadas.

RPZ

tracker
creo que en etch no esta pero si en lenny y sid




"Estos directorios contienen colecciones de ficheros en varios formatos. La mayor parte -más de un 95%- son ficheros de texto (ascii crudo, documentos de varias versiones del viejo WordPerrect, documentos de casi todas la versiones de MsWord, pdf, odt). "

" y que tuviera una interfaz de interrogación/presentación de resultados lo más 
amigable posible para usuarios finales (no informáticos, ni documentalistas). "


Da la idea de una búsqueda un tanto "a lo bruto, en un montón de chatarra".
Y digo yo, ¿no te sirve el Google Desktop?
Es fácil de usar, es la misma interfaz web de Google.
Es por página web.
Hace lo que pedís, busca por título y contenido en los de texto.
Permite realizar búsqueda avanzadas (por fecha, relevancia, tipo de extensión)

Las contras:
Si están los archivos en utf-16, vas muerto, porque no encuentra una palabra de 
búsqueda contenida en un archivo de texto, dado el uso de dos bytes por letra. 
Pero creo que es problema de todos los buscadores.
La interfaz está en inglés, aunque muy, muy básico.






--
GNU/Linux - Usuario Registrado # 389414
http://i18n.counter.li.org


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]

Responder a