Porque en vez de hacer un hash de 'todos' los archivos no solo hacerlo de los que se podrian 'parecer' ?... agregarle más inteligencia al algoritmo de búsqueda.
por ejemplo, ver si hay 2 nombres iguales de archivos y usar el método de hash para resolverlo. pero si los nombres son distintos y las extensiones son distintas (comparar un ubuntu.iso con mafalda_naked.jpg tiene sentido ?) no compararía. luego por cada grupo de archivos (agrupados por extensiones ?) se podría usar el algoritmo de levenshtein [1][2] para ver si tienen nombres parecidos y solo con los que se acerquen mucho usar el método de calcular el hash. me parece que en lotes grandes vas a obtener mejores resultados [1] http://www.merriampark.com/ld.htm [2] http://rubyforge.org/projects/text -- :: nelson :: artesano de software http://netflux.com.ar _______________________________________________ Ruby mailing list [email protected] http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar
