2009/9/10 Arne Babenhauserheide: > Knittl wrote: > >> nehme ich alle meine irc logs (deutsch, englisch, etwas lojban) steigt >> die anzahl der grundreihenwörter wesentlich. das dauert jetzt aber, >> sind immerhin 340 mb an logs. in diesem fall wäre eine perl-lösung >> vermutlich wesentlich effizienter (wer hat lust?) > > Schau einfach in das Skript, das ich gepostet habe. > > ./wordfilter.py --letters uiaeodtnrsj Die*.txt --length 1 | sort | uniq > > Ist um den Faktor 8 schneller als "grep -i ... | sort -u" > > (Groß- und Kleinschreibung wird ignoriert)
das script könnte sich dann aber auch gleich um sort und uniq kümmern ;) und perl ist irgendwie die klischee-sprache schlechthin für solche aufgaben, darum hab ich gemeint. meine irc-logs greppe ich übrigens immer noch – eine stunde läuft das schon *g* evtl. hätte ich wc -l nehmen sollen, ich kann mir gut vorstellen, dass das bei solchen datenmengen doch einen unterschied macht, ob jedes zeichen und wort oder nur die zeilenenden gezählt werden müssen. lg, daniel -- myFtPhp -- visit http://myftphp.sf.net -- v. 0.4.7 released!