$ apt-cache show fdupes Package: fdupes Priority: optional Section: utils Installed-Size: 80 Maintainer: Adrian Bridgett <[EMAIL PROTECTED]> Architecture: i386 Version: 1.40-4 Depends: libc6 (>= 2.3.2.ds1-4) Filename: pool/main/f/fdupes/fdupes_1.40-4_i386.deb Size: 14072 MD5sum: 269747d7b30eed6e18c653f89a5c777b SHA1: c5ebe55c6db39a01e284536f5a4e12b65cee24ea SHA256: 3ce6977b9b001f6f8bf2c1aabc113e460f8cafeef687a7ef73a5311c061b5f35 Description: Identifies duplicate files within given directories FDupes uses md5sums and then a byte by byte comparison to find duplicate files within a set of directories. It has several useful options including recursion. Bugs: mailto:[EMAIL PROTECTED] Origin: Ubuntu
:-D Diego El 1/09/07, Martin Sagastume <[EMAIL PROTECTED]> escribió: > Nelson, lo que planteas fue lo que me plantie yo antes de hacer el > programa... es bastante mas eficiente hacer eso, el tema es cuando tenes un > archivo que no tiene nada que ver el nombre y aun así el archivo es el > mismo... en el mayor de los casos no va a suceder, peeeero algunos casos > sucede, el programa tendría que detectarlo...pero creo que voy a terminar > filtrando los archivos por nombre y extension. > > Si los archivos tienen el nombre parecido AND tienen la misma extension > ENTONCES > asumo que son iguales y le aplico MD5 para corroborar > > Dj Tiesto - Adagio 4 Strings.ogg > > Tiesto - Adagio for strings.ogg > > Posiblemente sean el mismo...pero supon que uno de ellos esta cortado por x > razón..el MD5 detecta que son distintos...y esta perfecto. > > El hecho es si decis: Voy a probar este progama a ver q tal funciona...voy a > agarrar este archivo y copiarlo y cambiarle el nombre.... x.png a y.gif > ....corro el programita..no lo detecta..ahh q porqueria...ya mismo lo borro > :P > > Por esa razón, prefiero que haga el MD5...aunq si no se puede mejorar la > eficiencia voy a terminar aplicando el "Filtro" y el algoritmo que detecta > si los nombres son parecidos. > > > > > On 9/1/07, nelson fernandez <[EMAIL PROTECTED]> wrote: > > Porque en vez de hacer un hash de 'todos' los archivos no solo hacerlo > > de los que se podrian 'parecer' ?... agregarle más inteligencia al > > algoritmo de búsqueda. > > > > por ejemplo, ver si hay 2 nombres iguales de archivos y usar el método > > de hash para resolverlo. pero si los nombres son distintos y las > > extensiones son distintas (comparar un ubuntu.iso con > > mafalda_naked.jpg tiene sentido ?) no compararía. luego por cada grupo > > de archivos (agrupados por extensiones ?) se podría usar el algoritmo > > de levenshtein [1][2] para ver si tienen nombres parecidos y solo con > > los que se acerquen mucho usar el método de calcular el hash. > > me parece que en lotes grandes vas a obtener mejores resultados > > > > [1] http://www.merriampark.com/ld.htm > > [2] http://rubyforge.org/projects/text > > > > > > -- > > :: nelson :: > > artesano de software > > http://netflux.com.ar > > _______________________________________________ > > Ruby mailing list > > [email protected] > > > http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar > > > > > > -- > > Martín Sagastume > 094-575846 > Montevideo - Uruguay > http://musicapastillera.blogspot.com > _______________________________________________ > Ruby mailing list > [email protected] > http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar > > _______________________________________________ Ruby mailing list [email protected] http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar
