Re: Ordnung in Datensalat bringen

Joerg Rieger Sun, 04 Jul 2004 11:23:35 -0700

On Sun, Jul 04, 2004 at 08:04:59PM +0200, Thomas Vollmer wrote:
> On Sunday 04 July 2004 10:53, Joerg Rieger wrote:
> > On Sat, Jul 03, 2004 at 10:58:28PM +0200, Michelle Konzack wrote:
> > > Am 2004-07-03 22:50:36, schrieb Rainer Bendig, Digitally Impressed:
> > > >Michelle Konzack schrieb am 03.07.2004 22:30:
> 
> [...]
> 
> > Also sowas mach ich auch:
> >
> > find . -exec md5sum {} 2>/dev/null \; | sort | uniq -W 1 -D >
> > double.txt
> >
> > Dauert bei 80 GB gaaanz schön lang.
> 
> außerdem hat der Ansatz ein weiteres Problem. Er findet Doubletten nur 
> bei 100%iger  Gleichheit. Man denke mal an JPEGs bei denen mal der EXIF 
> Header angefasst wurde, das Bild gedreht oder eine Farbkorrektur 
> vorgenommen wurde. Oder diverse Officeformate wo bei einer Version nur 
> mal auf Speichern gedrückt wurde. Dies sind inhaltlich gleiche Dateien 
> deren Hash sich aber durchaus unterscheidet.


Das ist richtig. Nur würde es ungleich aufwendiger, wenn man, wie in 
deinen Beispielen, noch solche Fälle berücksichtigen würde.

-- 


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)

Re: Ordnung in Datensalat bringen

Antwort per Email an