Porque en vez de hacer un hash de 'todos' los archivos no solo hacerlo
de los que se podrian 'parecer' ?... agregarle más inteligencia al
algoritmo de búsqueda.

por ejemplo, ver si hay 2 nombres iguales de archivos y usar el método
de hash para resolverlo. pero si los nombres son distintos y las
extensiones son distintas (comparar un ubuntu.iso con
mafalda_naked.jpg tiene sentido ?) no compararía. luego por cada grupo
de archivos (agrupados por extensiones ?) se podría usar el algoritmo
de levenshtein [1][2] para ver si tienen nombres parecidos y solo con
los que se acerquen mucho usar el método de calcular el hash.
me parece que en lotes grandes vas a obtener mejores resultados

[1] http://www.merriampark.com/ld.htm
[2] http://rubyforge.org/projects/text


-- 
:: nelson ::
artesano de software
http://netflux.com.ar
_______________________________________________
Ruby mailing list
[email protected]
http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar

Responder a