Re: grep und RegEx

Helmut Wollmersdorfer Sun, 22 May 2005 16:01:13 -0700

Michelle Konzack wrote:

Am 2005-05-20 10:10:38, schrieb erkan yanar:

On Thu, May 19, 2005 at 04:27:39PM +0200, Helmut Wollmersdorfer wrote:

Ich bau derzeit an einem Filter mittels regex in Perl, der tausendePatterns auf Files mit Millionen Zeilen anwenden soll. Mein ersterAnsatz mit den Testfiles (~2500 Patterns, ~3000 Zeilen) hat 4 min auf

Also bei meinen knapp über 600 benötige ich rund eine halbe Sekunde
mit procmail und BASH Script auf einem Sempron 2200 mit 256 MByte.

Für wieviele Zeilen? Perl würde in einer halben Sekunde etwa 20 - 50tausend Match-Trials der einfachen Sorte "if ( $line =~ m/$regex/ )"abarbeiten können, wobei $line durchschnittlich 200 Characters lang ist,und $regex ein (relativ kurzer, 5 - 50 Character) String ist.

einem Athlon XP2500 gebraucht, nach Tuning 58 sec. Durch einenausgefeilten Algorithmus bin ich jetzt auf 0.2 sec.

Kannst Du mal einen Verweis senden, wo man die Evolution deines Filters
nachvollziehen kann?

Ob Du es glaubst oder glaubst, mich würde das auch interessieren :-)

Wenn die Regex zum grossen Teil aus fixen Strings (z.B. Worte wie"Viagra", "buy", "free") bestehen, und die zu untersuchenden Daten einergewissen Syntax folgen (z.B. "wort1 wort2, wort3: wort4"), dannspeichert man die fixen Strings indiziert ab, und schaut mit $wort ganzeinfach nach, ob es existiert. Das ist sehr schnell. Wenn es nicht inden fixen Strings existiert, dann durchläuft man die restlichen "echtenRegex" (z.B. /f.{0,1}r.{0,1}(e.{0,1}){2}/i in einer Schleife.


Helmut Wollmersdorfer


--

Haeufig gestellte Fragen und Antworten (FAQ):http://www.de.debian.org/debian-user-german-FAQ/


Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)

Re: grep und RegEx

Antwort per Email an