Hi Andreas,

Here is what my simple tokenizing regex pattern ("[\p{L}\w\d/]+|[\-\,\.\?\!\(\)]") gives me on your sample text:

("Börsen" "-" "Ticker" "RSS" "News" "AKTIEN" "SCHWEIZ/Verlauf" "Leicht" "fester" "-" "Gesuchte" "Finanz" "-" "und" "Pharmawerte" "18" "." "10" "." "2010" "13" "00" "Zürich" "(" "awp" ")" "-" "Die" "Schweizer" "Börse" "zeigt" "sich" "nach" "einem" "Start" "im" "Minus" "zur" "Mittagszeit" "leicht" "fester" "." "Aufruhr" "bei" "Bayern" "-" "Gegner" "AS" "Rom" "-" "Kritik" "an" "Coach" "Unter" "Druck" "(" "Foto" "dpa" ")" "Rom" "(" "dpa" ")" "-" "Bayern" "Münchens" "Champions" "-" "League" "-" "Gegner" "AS" "Rom" "ist" "in" "Aufruhr" "." "Weitere" "Nachrichten" "Piper" "Jaffray" "Co" "." "stuft" "Baidu" "Sp" "ADR" "-" "A" "auf" "overweight" "Minneapolis" "(" "aktiencheck" "." "de" "AG" ")" "-" "Gene" "Munster" "," "Analyst" "von" "Piper" "Jaffray" "," "stuft" "die" "Aktie" "von" "BAIDU" "." "COM" "(" "ISIN" "US0567521085" "/" "WKN" "A0F5DE" ")" "von" "neutral" "auf" "overweight" "hoch" "." "Wohnort" "erfurt" "Verfasst" "am" "25" "." "09" "." "2010" "," "02" "59" "Titel" "Datum" "des" "PageRank" "Nutzungsrechtest" "von" "Google" "Wer" "weiss" "," "wann" "genau" "das" "nutzungsrecht" "nächstes" "jahr" "ausläuft" "für" "die" "kostenfreie" "nutzung" "für" "google" "?" "Die" "deutsche" "Automobilindustrie" "fährt" "schneller" "aus" "der" "Krise" "als" "erwartet" "," "sagte" "VDA" "-" "Präsident" "Matthias" "Wissmann" "in" "Berlin" "." "Senden" "Pfleiderer" "verkaufen" "Düsseldorf" "(" "aktiencheck" "." "de" "AG" ")" "-" "Der" "Analyst" "vom" "Bankhaus" "Lampe" "," "Marc" "Gabriel" "," "stuft" "die" "Pfleiderer" "-" "Aktie" "(" "ISIN" "DE0006764749" "/" "WKN" "676474" ")" "von" "halten" "auf" "verkaufen" "herab" "." "Der" "vollständige" "Zwischenbericht" "wird" "am" "8" "." "November" "2010" "um" "12" "." "00" "Uhr" "veröffentlicht" "." "Besonders" "in" "ländlichen" "Gegenden" "sind" "Telegrafenmaste" "auch" "heute" "noch" "weit" "verbreitet" "-" "größtenteils" "für" "die" "Festnetztelefonie" "." "Newsticker" "RSS" "-" "Feed" "Morgenweb" "Sarah" "Palin" "als" "Reality" "-" "Star" "im" "US" "-" "Fernsehen" "auf" "Sendung" "15" "." "11" "." "10" "4" "58" "Washington" "(" "dpa" ")" "-" "Sarah" "Palin" "hat" "jetzt" "eine" "eigene" "Show" "." "Fotos" "Terrorwarnung" "-" "Was" "man" "jetzt" "beachten" "sollte" "Die" "Sicherheitslage" "spitzt" "sich" "zu" "." "Newsticker" "RSS" "-" "Feed" "Morgenweb" "Tausende" "Siedler" "protestieren" "gegen" "neuen" "Baustopp" "21" "." "11" "." "10" "11" "51" "Jerusalem" "(" "dpa" ")" "-" "Die" "israelischen" "Siedler" "haben" "ihre" "Proteste" "gegen" "einen" "erwarteten" "neuen" "Baustopp" "im" "Westjordanland" "verschärft" "." "Jetzt" "einloggen" "SchwarzKater" "(" "vor" "4" "Stunden" ")" "WTF" "?" "Das" "Bankhaus" "hat" "das" "Kursziel" "für" "die" "Salzgitter" "-" "Aktien" "von" "69" "," "00" "auf" "58" "," "00" "Euro" "gesenkt" "," "aber" "die" "Einstufung" "auf" "Overweight" "belassen" "." "Bundeskanzlerin" "Angela" "Merkel" "(" "CDU" ")" "ist" "am" "Dienstag" "zum" "Gipfel" "der" "Organisation" "für" "Sicherheit" "und" "Zusammenarbeit" "in" "Europa" "(" "OSZE" ")" "in" "Kasachstan" "eingetroffen" "." "Mann" "totgeprügelt" "Haftstrafen" "im" "20" "-" "Cent" "-" "Prozess" "Die" "beiden" "Schläger" "jugendlichen" "Schläger" "sind" "wegen" "Körperverletzung" "mit" "Todesfolge" "zu" "Haftstrafen" "verurteilt" "worden" ".")


mind you, before deploying the regular expression, I had to escape all double-quote occurrences within your text as in java you can't have nested double-quotes (the expression simply won't compile).

HTH,

Jim

ps: I don't speak German, but the output seems reasonable to me...depending on your use case, this could be enough (or not!)...

On 14/03/13 11:20, Andreas Niekler wrote:
Yes all the tokens are separated by a whitespace.

Example:
Börsen-Ticker RSS › News AKTIEN SCHWEIZ/Verlauf : Leicht fester -
Gesuchte Finanz- und Pharmawerte 18.10.2010 13:00 Zürich ( awp ) - Die
Schweizer Börse zeigt sich nach einem Start im Minus zur Mittagszeit
leicht fester .
Aufruhr bei Bayern-Gegner AS Rom - Kritik an Coach Unter Druck(Foto :
dpa ) Rom ( dpa ) - Bayern Münchens Champions-League-Gegner AS Rom ist
in Aufruhr .
Weitere Nachrichten Piper Jaffray & Co . stuft Baidu Sp ADR-A auf
overweight Minneapolis ( aktiencheck.de AG ) - Gene Munster , Analyst
von Piper Jaffray , stuft die Aktie von BAIDU.COM ( ISIN US0567521085 /
WKN A0F5DE ) von " neutral " auf " overweight " hoch .
Wohnort : erfurt Verfasst am : 25.09.2010 , 02:59 Titel : Datum des
PageRank Nutzungsrechtest von Google Wer weiss , wann genau das
nutzungsrecht nächstes jahr ausläuft für die kostenfreie nutzung für
google ?
" Die deutsche Automobilindustrie fährt schneller aus der Krise als
erwartet " , sagte VDA-Präsident Matthias Wissmann in Berlin .
Senden Pfleiderer verkaufen Düsseldorf ( aktiencheck.de AG ) - Der
Analyst vom Bankhaus Lampe , Marc Gabriel , stuft die Pfleiderer-Aktie (
ISIN DE0006764749 / WKN 676474 ) von " halten " auf " verkaufen " herab .
Der vollständige Zwischenbericht wird am 8 . November 2010 um 12.00 Uhr
veröffentlicht .
Besonders in ländlichen Gegenden sind Telegrafenmaste auch heute noch
weit verbreitet - größtenteils für die Festnetztelefonie .
Newsticker RSS-Feed Morgenweb Sarah Palin als Reality-Star im
US-Fernsehen auf Sendung 15.11.10 4:58 : Washington ( dpa ) - Sarah
Palin hat jetzt eine eigene Show .
Fotos Terrorwarnung - Was man jetzt beachten sollte Die Sicherheitslage
spitzt sich zu .
Newsticker RSS-Feed Morgenweb Tausende Siedler protestieren gegen neuen
Baustopp 21.11.10 11:51 : Jerusalem ( dpa ) - Die israelischen Siedler
haben ihre Proteste gegen einen erwarteten neuen Baustopp im
Westjordanland verschärft .
Jetzt einloggen SchwarzKater ( vor 4 Stunden ) WTF ?
Das Bankhaus hat das Kursziel für die Salzgitter-Aktien von 69,00 auf
58,00 Euro gesenkt , aber die Einstufung auf ´ Overweight ´ belassen .
Bundeskanzlerin Angela Merkel ( CDU ) ist am Dienstag zum Gipfel der
Organisation für Sicherheit und Zusammenarbeit in Europa ( OSZE ) in
Kasachstan eingetroffen .
Mann totgeprügelt : Haftstrafen im « 20-Cent-Prozess » Die beiden
Schläger jugendlichen Schläger sind wegen Körperverletzung mit
Todesfolge zu Haftstrafen verurteilt worden .

Reply via email to