Bueno, gracias a todos que pusieron de su buena voluntad, el objetivo era aprender y creo que aportó bastante los mensajes de todos :-D , dudo que se pueda mejorar la eficiencia, sin pasar por algun algoritmo q compare los nombres y extension.
Voy a seguir leyendo sobre ruby ;) Mil gracias On 9/1/07, Martin Sagastume <[EMAIL PROTECTED]> wrote: > > Nelson, lo que planteas fue lo que me plantie yo antes de hacer el > programa... es bastante mas eficiente hacer eso, el tema es cuando tenes un > archivo que no tiene nada que ver el nombre y aun así el archivo es el > mismo... en el mayor de los casos no va a suceder, peeeero algunos casos > sucede, el programa tendría que detectarlo...pero creo que voy a terminar > filtrando los archivos por nombre y extension. > > Si los archivos tienen el nombre parecido AND tienen la misma extension > ENTONCES > asumo que son iguales y le aplico MD5 para corroborar > > Dj Tiesto - Adagio 4 Strings.ogg > > Tiesto - Adagio for strings.ogg > > Posiblemente sean el mismo...pero supon que uno de ellos esta cortado por > x razón..el MD5 detecta que son distintos...y esta perfecto. > > El hecho es si decis: Voy a probar este progama a ver q tal funciona...voy > a agarrar este archivo y copiarlo y cambiarle el nombre.... x.png a y.gif > ....corro el programita..no lo detecta..ahh q porqueria...ya mismo lo borro > :P > > Por esa razón, prefiero que haga el MD5...aunq si no se puede mejorar la > eficiencia voy a terminar aplicando el "Filtro" y el algoritmo que detecta > si los nombres son parecidos. > > > > On 9/1/07, nelson fernandez <[EMAIL PROTECTED]> wrote: > > > > Porque en vez de hacer un hash de 'todos' los archivos no solo hacerlo > > de los que se podrian 'parecer' ?... agregarle más inteligencia al > > algoritmo de búsqueda. > > > > por ejemplo, ver si hay 2 nombres iguales de archivos y usar el método > > de hash para resolverlo. pero si los nombres son distintos y las > > extensiones son distintas (comparar un ubuntu.iso con > > mafalda_naked.jpg tiene sentido ?) no compararía. luego por cada grupo > > de archivos (agrupados por extensiones ?) se podría usar el algoritmo > > de levenshtein [1][2] para ver si tienen nombres parecidos y solo con > > los que se acerquen mucho usar el método de calcular el hash. > > me parece que en lotes grandes vas a obtener mejores resultados > > > > [1] http://www.merriampark.com/ld.htm > > [2] http://rubyforge.org/projects/text > > > > > > -- > > :: nelson :: > > artesano de software > > http://netflux.com.ar > > _______________________________________________ > > Ruby mailing list > > [email protected] > > http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar > > > > > > -- > Martín Sagastume > 094-575846 > Montevideo - Uruguay > http://musicapastillera.blogspot.com > -- Martín Sagastume 094-575846 Montevideo - Uruguay http://musicapastillera.blogspot.com
_______________________________________________ Ruby mailing list [email protected] http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar
