[de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-26 Thread Thomas Barth

Hallo,
ich verwende die beiden Wörterbuch-Dateien (*.dic und *.aff) in einer 
eigenen Applikation, bei der Kurznachrichten überprüft werden sollen. 
Soweit habe ich ja SFX und PFX verstanden, Nach- und Vorsilbe. Ich 
überprüfe gerade nur Wörter mit Nachsilben und schon dabei werden nicht 
alle Wörter gefunden, wie z.B. Gehe, berühre, dich, anketten, alle, denn 
, verwöhnen.


Ich möchte das mal am Beispiel verwöhnen deutlich machen. Dazu gibt es 
zwei Einträge im Wörterbuch.


verwöhnt/ACX
verwöhnte/ACNRSZ

Daraus ergeben sich dann folgende Wandlungen:

Buchwort: verwöhnt Wandlung: verwöhnte (SFX A 0 e [^elr])
Buchwort: verwöhnt Wandlung: verwöhnter (SFX A 0 er [^elr])
Buchwort: verwöhnt Wandlung: verwöhnten (SFX A 0 en [^elr])
Buchwort: verwöhnt Wandlung: verwöhntem (SFX A 0 em [^elr])
Buchwort: verwöhnt Wandlung: verwöhntes (SFX A 0 es [^elr])
Buchwort: verwöhnt Wandlung: verwöhnter (SFX C 0 er [^elr])
Buchwort: verwöhnt Wandlung: verwöhntere (SFX C 0 ere [^elr])
Buchwort: verwöhnt Wandlung: verwöhnterer (SFX C 0 erer [^elr])
Buchwort: verwöhnt Wandlung: verwöhnteren (SFX C 0 eren [^elr])
Buchwort: verwöhnt Wandlung: verwöhnterem (SFX C 0 erem [^elr])
Buchwort: verwöhnt Wandlung: verwöhnteres (SFX C 0 eres [^elr])
Buchwort: verwöhnt Wandlung: verwöhntest (SFX C 0 est [^e]t)
Buchwort: verwöhnt Wandlung: verwöhnteste (SFX C 0 este [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntester (SFX C 0 ester [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntesten (SFX C 0 esten [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntestem (SFX C 0 estem [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntestes (SFX C 0 estes [^e]t)
Buchwort: verwöhnt Wandlung: verwöhnst (SFX X t st [^sz]t)
Buchwort: verwöhnte Wandlung: verwöhnter (SFX A 0 r e)
Buchwort: verwöhnte Wandlung: verwöhnten (SFX A 0 n e)
Buchwort: verwöhnte Wandlung: verwöhntem (SFX A 0 m e)
Buchwort: verwöhnte Wandlung: verwöhntes (SFX A 0 s e)
Buchwort: verwöhnte Wandlung: verwöhnter (SFX C 0 r e)
Buchwort: verwöhnte Wandlung: verwöhntere (SFX C 0 re e)
Buchwort: verwöhnte Wandlung: verwöhnterer (SFX C 0 rer e)
Buchwort: verwöhnte Wandlung: verwöhnteren (SFX C 0 ren e)
Buchwort: verwöhnte Wandlung: verwöhnterem (SFX C 0 rem e)
Buchwort: verwöhnte Wandlung: verwöhnteres (SFX C 0 res e)
Buchwort: verwöhnte Wandlung: verwöhntest (SFX C 0 st [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhnteste (SFX C 0 ste [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntester (SFX C 0 ster [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntesten (SFX C 0 sten [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntestem (SFX C 0 stem [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntestes (SFX C 0 stes [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhnten (SFX N 0 n .)
Buchwort: verwöhnte Wandlung: verwöhnter (SFX R 0 r e)
Buchwort: verwöhnte Wandlung: verwöhntern (SFX R 0 rn e)
Buchwort: verwöhnte Wandlung: verwöhntes (SFX S 0 s [^sß])
Buchwort: verwöhnte Wandlung: verwöhntest (SFX Z 0 st [^hßsz])
Buchwort: verwöhnte Wandlung: verwöhntet (SFX Z 0 t [^dt])
Buchwort: verwöhnte Wandlung: verwöhnten (SFX Z 0 n e)

Und wieso gibt es keine Ersetzungsanweisung "ersetze t oder te durch 
en"? Das verstehe ich nicht, denn das Wort selbst wird ja in OpenOffice 
gefunden. Ich muss irgendetwas vergessen haben. Ja und was ist mit den 
einfachen Wörtern Gehe, dich, alle, denn wir, komm. Dafür gibt es auch 
keine Einträge.


Kann mir da jemand vielleicht weiterhelfen?

Viele Grüße,
Thomas Barth

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-26 Thread Christian Lohmaier
Hallo Thomas,

2008/8/26 Thomas Barth <[EMAIL PROTECTED]>:
> [verwöhnen]
> Und wieso gibt es keine Ersetzungsanweisung "ersetze t oder te durch en"?

Eine entsprechende Regel gibt nur dann Sinn, wenn es auch tatsächlich
eine Regel ist (und keine Ausnahme, oder ein Sonderfall, oder falls
das alles schon von anderen Regeln abgedeckt ist)

> Das verstehe ich nicht, denn das Wort selbst wird ja in OpenOffice gefunden.

klar, gibt ja auch den Eintrag/die Einträge:
verwöhnen/DIOXY
verwöhnen/SJoz

> Ich muss irgendetwas vergessen haben. Ja und was ist mit den einfachen
> Wörtern Gehe, dich, alle, denn wir, komm. Dafür gibt es auch keine Einträge.

Doch, klar:
gehe: gehen/DIVXW (SFX I   n   0  en)
alle ist so drin (mit zusätzlichen Suffix-Regelungen)
denn: den/NP (SFX N   0   n  .)
wir ist so drin (ohne zusätzliche Regeln)
komm: kommen/DIVXW (SFX W   en  0  [^bght][mn]en)

> Kann mir da jemand vielleicht weiterhelfen?

Offenbar ist das mit den affix-Regeln doch noch nicht so ganz klar...

ciao
Christian

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-26 Thread Thomas Barth

Christian Lohmaier wrote:

Hallo Thomas,

2008/8/26 Thomas Barth <[EMAIL PROTECTED]>:

[verwöhnen]
Und wieso gibt es keine Ersetzungsanweisung "ersetze t oder te durch en"?


Eine entsprechende Regel gibt nur dann Sinn, wenn es auch tatsächlich
eine Regel ist (und keine Ausnahme, oder ein Sonderfall, oder falls
das alles schon von anderen Regeln abgedeckt ist)


Das verstehe ich nicht, denn das Wort selbst wird ja in OpenOffice gefunden.


klar, gibt ja auch den Eintrag/die Einträge:
verwöhnen/DIOXY
verwöhnen/SJoz


Ich muss irgendetwas vergessen haben. Ja und was ist mit den einfachen
Wörtern Gehe, dich, alle, denn wir, komm. Dafür gibt es auch keine Einträge.


Doch, klar:
gehe: gehen/DIVXW (SFX I   n   0  en)
alle ist so drin (mit zusätzlichen Suffix-Regelungen)
denn: den/NP (SFX N   0   n  .)
wir ist so drin (ohne zusätzliche Regeln)
komm: kommen/DIVXW (SFX W   en  0  [^bght][mn]en)


Kann mir da jemand vielleicht weiterhelfen?


Offenbar ist das mit den affix-Regeln doch noch nicht so ganz klar...



Doch natürlich, ist sonnenklar, Wörterbuch scheint nicht vollständig zu 
sein und die Programmierung offensichtlich noch nicht vollständig :-)


#kein verwöhnen

489644:Verwöhner/FNS
489645:Verwöhnheit/P
489646:Verwöhntheit/P
489647:Verwöhnung/P

585001:verwöhnt/ACX
585002:verwöhnte/ACNRSZ

# kein alle

538360:allel
538361:alleluja
538362:allemal
538363:allemann

# kein wir

515409:Wiranden/Sl
515410:Wirballen/Sl
515411:Wirbel/NS

587925:wirb
587926:wirbelig/AC
587927:wirbellos/AC
587928:wirbeln/BDIOWXYcd
587929:wirbelt/EGPX
587930:wirblig/AC
587931:wirbt/X
587932:wird

Danke für die Hinweise!

Viele Grüße,
Thomas B

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Thread Thomas Barth

Thomas Barth wrote:
aus ergeben sich dann folgende Wandlungen:


Buchwort: verwöhnt Wandlung: verwöhnte (SFX A 0 e [^elr])


Kann mir einer sagen, was das hier soll?

SFX j Y 3
SFX j 0 0/xoc .
SFX j 0 -/zocf .
SFX j 0 -/cz .

Brust mit der Erweitung /ijm wird dann zu Brust0/xoc, Brust-/zocf, 
Brust-/cz?


Jetzt muss ich etwa auch noch überprüfen, ob die Ersetzung ebenfalls 
noch Angaben zu einer Wortwandlung hat? Bitte sagt mir, dass die 
mitgelieferte aff-Datei fehlerhaft ist.


Viele Grüße,
Thomas Barth

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Thread Christian Lohmaier
Hallo Thomas,

On Wed, Aug 27, 2008 at 12:24 PM, Thomas Barth <[EMAIL PROTECTED]> wrote:
> Thomas Barth wrote:
> aus ergeben sich dann folgende Wandlungen:
>>
>> Buchwort: verwöhnt Wandlung: verwöhnte (SFX A 0 e [^elr])
>
> Kann mir einer sagen, was das hier soll?
>
> SFX j Y 3

Suffix-Regelblock mit Bezeichner "j", darf mit Prefix-Regeln
kombiniert werden, insgesamt 3 Regeln

> SFX j 0 0/xoc .

SFX j: Regel mit bezeichner "j",
0 nix von Ende abziehen
0/xoc nix dranhängen, Regeln für Verbindungs mit Bezeichner x,o und c
gelten, sprich zusätzlich zu dieser Regel können die anderen auch noch
angewendet werden.
. Regel gilt für jedes Wort mit der Regel, egal mit welchem Buchstaben
es aufhört

Wobei xoc in dem Fall compound-Regeln sind. Genauso für die anderen Regeln.

man 4 hunspell ...

> Jetzt muss ich etwa auch noch überprüfen, ob die Ersetzung ebenfalls noch
> Angaben zu einer Wortwandlung hat? Bitte sagt mir, dass die mitgelieferte
> aff-Datei fehlerhaft ist.

Du verschweigst *womit* mitgeliefert? Die mit OOo ausgelieferte
affix-Datei ist offensichtlich OK, denn ansonsten würde die
Rechtschreibprüfung überhaupt nicht funktionieren.

Wenn man schon Wörterbücher selbt woanders wiederverwenden will, dann
schadet es nicht, sich zumindest die dazugeörige Dokumentation
(hier:hunspell-manpages/Readmes) durchzulesen.

hunspell hat auch entsprechende Test-Programme, die einem sagen warum
ein Wort akzeptiert wird (sprich die angewandten Regeln zeigt)

ciao
Christain

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Thread Thomas Barth

Christian Lohmaier wrote:


Wenn man schon Wörterbücher selbt woanders wiederverwenden will, dann
schadet es nicht, sich zumindest die dazugeörige Dokumentation
(hier:hunspell-manpages/Readmes) durchzulesen.



Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge 
ausdenkt, nur um 1 oder 2 MB Ram einzusparen :-) Ja, dann muss ich mich 
wohl noch eingehender mit dem Thema auseinander setzen.


Viele Grüße,
Thomas Barth

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Thread Jacob Georg Benz
Hi,
Am Mittwoch 27 August 2008 15:51:40 schrieb Thomas Barth:
> Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge
> ausdenkt, nur um 1 oder 2 MB Ram einzusparen :-) Ja, dann muss ich mich
> wohl noch eingehender mit dem Thema auseinander setzen.

Ram ist auch heute noch knapp. Und OpenOffice braucht meiner Ansicht nach eh 
schon ewig zum Start.

>
> Viele Grüße,
> Thomas Barth

Gruß

JGB

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Thread Christian Lohmaier
2008/8/27 Thomas Barth <[EMAIL PROTECTED]>:
> Christian Lohmaier wrote:
>
>> Wenn man schon Wörterbücher selbt woanders wiederverwenden will, dann
>> schadet es nicht, sich zumindest die dazugeörige Dokumentation
>> (hier:hunspell-manpages/Readmes) durchzulesen.
>>
>
> Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge ausdenkt,
> nur um 1 oder 2 MB Ram einzusparen :-)

Geht nicht nur um RAM, gibt ja schließlich auch andere Sprachen mit
durchaus komplexen Regeln denen man Rechnung tragen muß.

> Ja, dann muss ich mich wohl noch
> eingehender mit dem Thema auseinander setzen.

Scheint so. Aber ich verstehe sowieso nicht ganz, warum Du einen
eigenen Interpreter schreibst, anstatt hunspell selbst zu nutzen?

ciao
Christian

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Thread Thomas Barth

Christian Lohmaier wrote:


Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge ausdenkt,
nur um 1 oder 2 MB Ram einzusparen :-)


Geht nicht nur um RAM, gibt ja schließlich auch andere Sprachen mit
durchaus komplexen Regeln denen man Rechnung tragen muß.


Ja, dann muss ich mich wohl noch
eingehender mit dem Thema auseinander setzen.


Scheint so. Aber ich verstehe sowieso nicht ganz, warum Du einen
eigenen Interpreter schreibst, anstatt hunspell selbst zu nutzen?



Ach, weil's Spaß macht. In meiner Java/SWT/Webstart Anwendung will ich 
außerdem weitgehend nichts "Fremdes" verwenden. Ich bin ein 
Selbermacher. Wenn man immer nur die Sachen anderer Leute verwenden 
würde, lernt man ja nichts mehr, außer zu konfigurieren, ist mir zu 
langweilig


Gruß,
Thomas B





-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]