Bueno, gracias a todos que pusieron de su buena voluntad, el objetivo era
aprender y creo que aportó bastante los mensajes de todos :-D   , dudo que
se pueda mejorar la eficiencia, sin pasar por algun algoritmo  q compare los
nombres y extension.

Voy a seguir leyendo sobre ruby ;)


Mil gracias

On 9/1/07, Martin Sagastume <[EMAIL PROTECTED]> wrote:
>
> Nelson, lo que planteas fue lo que me plantie yo antes de hacer el
> programa... es bastante mas eficiente hacer eso, el tema es cuando tenes un
> archivo que no tiene nada que ver el nombre y aun así el archivo es el
> mismo... en el mayor de los casos no va a suceder, peeeero algunos casos
> sucede, el programa tendría que detectarlo...pero creo que voy a terminar
> filtrando los archivos por nombre y extension.
>
> Si los archivos tienen el nombre parecido AND tienen la misma extension
> ENTONCES
>       asumo que son iguales  y le aplico MD5 para corroborar
>
> Dj Tiesto - Adagio 4 Strings.ogg
>
> Tiesto - Adagio for strings.ogg
>
> Posiblemente sean el mismo...pero supon que uno de ellos esta cortado por
> x razón..el MD5 detecta que son distintos...y esta perfecto.
>
> El hecho es si decis: Voy a probar este progama a ver q tal funciona...voy
> a agarrar este archivo y copiarlo y cambiarle el nombre.... x.png  a y.gif
> ....corro el programita..no lo detecta..ahh q porqueria...ya mismo lo borro
> :P
>
> Por esa razón, prefiero que haga el MD5...aunq si no se puede mejorar la
> eficiencia voy a terminar aplicando el "Filtro" y el algoritmo que detecta
> si los nombres son parecidos.
>
>
>
> On 9/1/07, nelson fernandez <[EMAIL PROTECTED]> wrote:
> >
> > Porque en vez de hacer un hash de 'todos' los archivos no solo hacerlo
> > de los que se podrian 'parecer' ?... agregarle más inteligencia al
> > algoritmo de búsqueda.
> >
> > por ejemplo, ver si hay 2 nombres iguales de archivos y usar el método
> > de hash para resolverlo. pero si los nombres son distintos y las
> > extensiones son distintas (comparar un ubuntu.iso con
> > mafalda_naked.jpg tiene sentido ?) no compararía. luego por cada grupo
> > de archivos (agrupados por extensiones ?) se podría usar el algoritmo
> > de levenshtein [1][2] para ver si tienen nombres parecidos y solo con
> > los que se acerquen mucho usar el método de calcular el hash.
> > me parece que en lotes grandes vas a obtener mejores resultados
> >
> > [1] http://www.merriampark.com/ld.htm
> > [2] http://rubyforge.org/projects/text
> >
> >
> > --
> > :: nelson ::
> > artesano de software
> > http://netflux.com.ar
> > _______________________________________________
> > Ruby mailing list
> > [email protected]
> > http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar
> >
>
>
>
> --
> Martín Sagastume
> 094-575846
> Montevideo - Uruguay
> http://musicapastillera.blogspot.com
>



-- 
Martín Sagastume
094-575846
Montevideo - Uruguay
http://musicapastillera.blogspot.com
_______________________________________________
Ruby mailing list
[email protected]
http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar

Responder a