Re: [RubyArg] Presentacion y ruby script

Diego Algorta Casamayou Sat, 01 Sep 2007 18:13:48 -0700

$ apt-cache show fdupes
Package: fdupes
Priority: optional
Section: utils
Installed-Size: 80
Maintainer: Adrian Bridgett <[EMAIL PROTECTED]>
Architecture: i386
Version: 1.40-4
Depends: libc6 (>= 2.3.2.ds1-4)
Filename: pool/main/f/fdupes/fdupes_1.40-4_i386.deb
Size: 14072
MD5sum: 269747d7b30eed6e18c653f89a5c777b
SHA1: c5ebe55c6db39a01e284536f5a4e12b65cee24ea
SHA256: 3ce6977b9b001f6f8bf2c1aabc113e460f8cafeef687a7ef73a5311c061b5f35
Description: Identifies duplicate files within given directories
 FDupes uses md5sums and then a byte by byte comparison to find duplicate
 files within a set of directories. It has several useful options
 including recursion.
Bugs: mailto:[EMAIL PROTECTED]
Origin: Ubuntu


:-D

Diego

El 1/09/07, Martin Sagastume <[EMAIL PROTECTED]> escribió:
> Nelson, lo que planteas fue lo que me plantie yo antes de hacer el
> programa... es bastante mas eficiente hacer eso, el tema es cuando tenes un
> archivo que no tiene nada que ver el nombre y aun así el archivo es el
> mismo... en el mayor de los casos no va a suceder, peeeero algunos casos
> sucede, el programa tendría que detectarlo...pero creo que voy a terminar
> filtrando los archivos por nombre y extension.
>
> Si los archivos tienen el nombre parecido AND tienen la misma extension
> ENTONCES
>       asumo que son iguales  y le aplico MD5 para corroborar
>
> Dj Tiesto - Adagio 4 Strings.ogg
>
> Tiesto - Adagio for strings.ogg
>
> Posiblemente sean el mismo...pero supon que uno de ellos esta cortado por x
> razón..el MD5 detecta que son distintos...y esta perfecto.
>
> El hecho es si decis: Voy a probar este progama a ver q tal funciona...voy a
> agarrar este archivo y copiarlo y cambiarle el nombre.... x.png  a y.gif
> ....corro el programita..no lo detecta..ahh q porqueria...ya mismo lo borro
> :P
>
> Por esa razón, prefiero que haga el MD5...aunq si no se puede mejorar la
> eficiencia voy a terminar aplicando el "Filtro" y el algoritmo que detecta
> si los nombres son parecidos.
>
>
>
>
> On 9/1/07, nelson fernandez <[EMAIL PROTECTED]> wrote:
> > Porque en vez de hacer un hash de 'todos' los archivos no solo hacerlo
> > de los que se podrian 'parecer' ?... agregarle más inteligencia al
> > algoritmo de búsqueda.
> >
> > por ejemplo, ver si hay 2 nombres iguales de archivos y usar el método
> > de hash para resolverlo. pero si los nombres son distintos y las
> > extensiones son distintas (comparar un ubuntu.iso con
> > mafalda_naked.jpg tiene sentido ?) no compararía. luego por cada grupo
> > de archivos (agrupados por extensiones ?) se podría usar el algoritmo
> > de levenshtein [1][2] para ver si tienen nombres parecidos y solo con
> > los que se acerquen mucho usar el método de calcular el hash.
> > me parece que en lotes grandes vas a obtener mejores resultados
> >
> > [1] http://www.merriampark.com/ld.htm
> > [2] http://rubyforge.org/projects/text
> >
> >
> > --
> > :: nelson ::
> > artesano de software
> > http://netflux.com.ar
> > _______________________________________________
> > Ruby mailing list
> > [email protected]
> >
> http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar
> >
>
>
>
> --
>
> Martín Sagastume
> 094-575846
> Montevideo - Uruguay
>  http://musicapastillera.blogspot.com
> _______________________________________________
> Ruby mailing list
> [email protected]
> http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar
>
>
_______________________________________________
Ruby mailing list
[email protected]
http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar

Re: [RubyArg] Presentacion y ruby script

Responder a