Re: RegEx

Robert Lehner Wed, 25 Mar 2009 09:31:47 -0700

Es sollen Hauptwörter gefunden werden, wie achtung, meldung,wahrheit, gesellschaft und natürlich auch verfügbarkeit, möglichkeitusw.


Die ganze Zeile sieht so aus:

(\x20|\x09|\x0D)([a-z]{2,28})(ung|heit|keit|tion|schaft)(en)?(\x20|\x2C|\x2E|\x3A|\x3B)"


Ich dachte, dass RB intern sowieso mit UTF8 arbeitet?

Gruß
Robert




Am 25.03.2009 um 17:11 schrieb Christian Dorn:

Hast Du schon versucht, die Umlaute über ihren Hexadezimalwert zudefinieren?
([a-z]\xE4\xF6\xFC\xDF{2,28})
Sorry, das war nichts! Die Hexadezimalwerte müssten innerhalb dereckigen Klammer stehen, also
([a-z\xE4\xF6\xFC\xDF]{2,28})
Ich habe aber gerade mal meinen ersten Vorschlag getestet, und ichbekomme hier das Ergebnis, was ich erwartet habe. Kannst Du mirevtl. genauer erklären, was Du erreichen willst? Anhand desSuchmusters würde ich vermuten, Du sucht 2 bis 28aufeinanderfolgende Zeichen aus der Menge a-z, ä. ö, ü und ß!?
Kann es evtl. sein, dass Dein Suchstring eine falsche Kodierunghat? Wenn ich mich recht erinnere, hat Rb Probleme, wenn der zudurchsuchende String eine andere Kodierung als UTF8 hat! Versuchedoch mal, direkt vor der RegEx-Suche den String nach UTF8 zukonvertieren:
s = ConvertEncoding(s, Encodings.UTF8)

Gruß
Christian

----------------------------------------
Christian Dorn
realbasic {a} online.de

REALbasic 2008.5-1 Pro
iMac 3.06 GHz Intel Core 2 Duo, 4 GB RAM
PowerMac G5 2x2GHz, 1.5 GB RAM
Mac OS X 10.5.6
----------------------------------------

Re: RegEx

Antwort per Email an