On Sun, Jul 04, 2004 at 08:34:38PM +0200, Dieter Franzke wrote: > On Sunday 04 July 2004 20:23, Joerg Rieger wrote: > > On Sun, Jul 04, 2004 at 08:04:59PM +0200, Thomas Vollmer wrote: > > > On Sunday 04 July 2004 10:53, Joerg Rieger wrote: > > > > > > [...] > > > > > > > Also sowas mach ich auch: > > > > > > > > find . -exec md5sum {} 2>/dev/null \; | sort | uniq -W 1 -D > > > > > double.txt > > > > > > > > Dauert bei 80 GB gaaanz schön lang. > > > > > > außerdem hat der Ansatz ein weiteres Problem. Er findet Doubletten nur > > > bei 100%iger Gleichheit. Man denke mal an JPEGs bei denen mal der EXIF > > > Header angefasst wurde, das Bild gedreht oder eine Farbkorrektur > > > vorgenommen wurde. Oder diverse Officeformate wo bei einer Version nur > > > mal auf Speichern gedrückt wurde. Dies sind inhaltlich gleiche Dateien > > > deren Hash sich aber durchaus unterscheidet. > > > > Das ist richtig. Nur würde es ungleich aufwendiger, wenn man, wie in > > deinen Beispielen, noch solche Fälle berücksichtigen würde. > > für so etwas gibt es auch fertiges: > filedupe, läuft bei mir unter BSD. > Ob es ein .deb gibt entzieht sich im Moment meiner Kenntnis....
Zumindest in unstable gibts eins Package: fdupes Geht auch deutlich flotter zur Sache als meine "Lösung" bei gleichen Daten: fdupes real 0m3.000s user 0m1.518s sys 0m0.625s find+md5sum&co real 0m37.227s user 0m20.852s sys 0m4.438s -- -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)