[de-users] Rechtschreibprüfung - Regeln zu comp ound words

2008-08-29 Diskussionsfäden Thomas Barth

Hi,
es geht um das Wort Sportplatz, dass als Beispiel für compound words 
gelten soll. Da in der Manpage zu Hunspell nichts zu der Erweiterung j 
steht, muss ich hier noch einmal fragen. Das in Thunderbird 
mitgelieferte Wörterbuch kennt auch kein j, welches für 0/xoc, -/zocf 
oder -/cz steht.
Im ersten Fall wird nach Sportplatz gesucht und bei Sport gibt es 
entsprechende Wandlungen, die darauf hindeuten, dass es mit einem 
anderen Wortstamm verbunden werden kann. Ist es richtig, dass ich dann 
alle Wörter aus dem Wörterbuch zusammenstellen muss, die eine ähnliche 
Erweiterung haben, um sie dann für einen Vergleich mit Sport 
kombinieren zu können? Dies würde ja jedesmal ein Durchlaufen des 
gesamten Wörterbuches bedeuten.


* Buchwort: Sport, Suchwort: Sportplatz Extension (5):Smij
fx: S
Wortwandlung: Sports (.)
fx: m
fx: i
fx: j
Wortwandlung: Sport0/xoc (.)
Wortwandlung: Sport-/zocf (.)
Wortwandlung: Sport-/cz (.)


* Buchwort: Platz, Suchwort: Platz Extension (5):Tmij
fx: T
Wortwandlung: Platzes (.)
fx: m
fx: i
fx: j
Wortwandlung: Platz0/xoc (.)
Wortwandlung: Platz-/zocf (.)
Wortwandlung: Platz-/cz (.)


Sport und Platz dürfen demnach am Anfang, in der Mitte oder am Ende 
stehen, also Platzsport und Sportplatz?


Viele Grüße,
Thomas B







-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Rechtschreibprüfung - Regeln zu compound words

2008-08-29 Diskussionsfäden Thomas Barth

Christian Lohmaier wrote:

2008/8/29 Thomas Barth [EMAIL PROTECTED]:

Hi,
es geht um das Wort Sportplatz, dass als Beispiel für compound words
gelten soll. Da in der Manpage zu Hunspell nichts zu der Erweiterung j
steht,


Klar steht da nix zur Erweiterung j, weil man die Namen für die
Regeln ja beliebig selbst wählen kann. Wenn Du das schon nicht
verstanden hast, dann gehe zurück zu Los, ziehe keine 400 DM ein,...



Auf diesen Mist kannst du gerne in Zukunft verzichten.



muss ich hier noch einmal fragen. Das in Thunderbird mitgelieferte
Wörterbuch kennt auch kein j, welches für 0/xoc, -/zocf oder -/cz steht.


Hier: OOo-Liste, also sind die OOo-Wörtebücher maßgeblich. Was in den
Thunderbirdwörtebüchern steht interessiert mich nicht.
Wenn das Thunderbird keine Regel mit Namen/Bezeichner j nutzt,
braucht die natürlich auch nirgends drinstehen.



Man Junge, dann muss das auch in dem Handbuch erklärt werden!!! Ich 
denke, Thunderbird und OpenOffice orientieren sich an Hunspell! Also 
sind die Definitionen von Hunspell _maßgeblich_.  Das Handbuch erinnert 
aber mehr an einer Sammlung von Notizen, die für die am Projekt 
beteiligten Entwickler gedacht sind. So, woher wissen die 
OpenOffice-Leute, dass es diesen Bezeichner gibt, wenn es nicht im 
Handbuch erwähnt wird?



Im ersten Fall wird nach Sportplatz gesucht und bei Sport gibt es
entsprechende Wandlungen, die darauf hindeuten, dass es mit einem anderen
Wortstamm verbunden werden kann. Ist es richtig, dass ich dann alle Wörter
aus dem Wörterbuch zusammenstellen muss, die eine ähnliche Erweiterung
haben, um sie dann für einen Vergleich mit Sport kombinieren zu können?
Dies würde ja jedesmal ein Durchlaufen des gesamten Wörterbuches bedeuten.


Mit Erweiterung hat das nix zu tun. Wörter kann man nur mit anderen
Wörtern verbinden, die das auch erlauben - und dann auch nur wenn das
Wort an der richtigen Stelle landet (Am Anfang, in der Mitte, am Ende)
- sprich: Wenn die Affix-Regeln es erlauben.



Du kannst leider nicht so gut erklären. Wenn jemand etwas nicht 
versteht, musst du dich immer zuerst fragen, habe ich es gut genug 
erklärt oder sind die Dokumentationen ordentlich geschrieben.




* Buchwort: Sport, Suchwort: Sportplatz Extension (5):Smij
fx: S
Wortwandlung: Sports (.)
fx: m
fx: i
fx: j
Wortwandlung: Sport0/xoc (.)
Wortwandlung: Sport-/zocf (.)
Wortwandlung: Sport-/cz (.)


Keine Ahnung, was das für eine Darstellung sein soll. Entweder du


Denken hilft. Buchwort Sport ist ein Wörterbucheintrag. Smij dürfte dir 
als Erweiterung wohl bekannt sein. Daraus ergeben sich Wortwandlungen. 
Ganz einfach. Betrachte es als Pseudocode einer Schleife.



gibts konkret die Wörterbucheinträge und die dazugehörigen
affix-Regeln an, oder besser: Gehe eine Stufe in der Entwicklung
zurück, nutze Wörterbücher/Spellchecker die das noch nicht kannten.



Nein!  Wie kannst du es überbrigens wagen, dich aufgrund deines 
Mehrwissens in diesem Bereich über andere zu stellen? So etwas macht man 
nicht, ist aber typisch deutsch, deshalb nehme ich dir es nicht ganz so 
übel. Stell dies bitte sofort ein, wenn du daran interessiert bist, dass 
ich deine Antworten lese.




Sport und Platz dürfen demnach am Anfang, in der Mitte oder am Ende stehen,
also Platzsport und Sportplatz?


nicht im OOo-Wörterbuch.
Platz/ox (o=ONLYINCOMPOUND, x=COMPOUNDBEGIN) - Sportplatz wäre also
nicht als Kombination von Sport (ebenfalls /ox) und Platz möglich,
aber dafür steht Sportplatz auch als eigener Eintrag im Wörterbuch.
(bezieht sich alles auf die Wörterbücher, so wie sie mit der 2.4.1
ausgeliefert werden)

Aber auch in den 3er Wörterbüchern wäre das nicht erlaubt. Offenbar
ignorierst Du, daß mache Regeln Prefix und manche Regel Suffix Regeln
sind.



Da der Prefix-Kram überflüssig ist, extrahiere ich beim Laden des 
Wörterbuches alle Prefix-Angaben, so dass sich das Wörterbuch um ein 
paar tausend Einträge vergrößert. Denn ich habe keine Lust, ein Wort in 
beide Richtungen zu überprüfen. Beispiel unkonkret. Steht so nicht im 
Wörterbuch, ergibt sich aber erst durch die Erweiterungen bei konkret.


MB-Ram-Verbrauch vs. Komplexität. Speicher gibt es genug und solange die 
Suche nach einem Wort unter 5 ms bleibt, bin ich damit zufrieden. Das 
Wörterbuch in Thunderbird hat sogar 9 MB und kommt daher ohne 
Schnickschnack aus! Daran hatte ich mich zuerst orientiert, wollte mir 
aber noch das Wörterbuch von OpenOffice ansehen, um dann sagen zu 
können, was für meine Applikation besser ist.


Viele Grüße,
Thomas Barth



-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Diskussionsfäden Thomas Barth

Thomas Barth wrote:
aus ergeben sich dann folgende Wandlungen:


Buchwort: verwöhnt Wandlung: verwöhnte (SFX A 0 e [^elr])


Kann mir einer sagen, was das hier soll?

SFX j Y 3
SFX j 0 0/xoc .
SFX j 0 -/zocf .
SFX j 0 -/cz .

Brust mit der Erweitung /ijm wird dann zu Brust0/xoc, Brust-/zocf, 
Brust-/cz?


Jetzt muss ich etwa auch noch überprüfen, ob die Ersetzung ebenfalls 
noch Angaben zu einer Wortwandlung hat? Bitte sagt mir, dass die 
mitgelieferte aff-Datei fehlerhaft ist.


Viele Grüße,
Thomas Barth

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Diskussionsfäden Thomas Barth

Christian Lohmaier wrote:


Wenn man schon Wörterbücher selbt woanders wiederverwenden will, dann
schadet es nicht, sich zumindest die dazugeörige Dokumentation
(hier:hunspell-manpages/Readmes) durchzulesen.



Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge 
ausdenkt, nur um 1 oder 2 MB Ram einzusparen :-) Ja, dann muss ich mich 
wohl noch eingehender mit dem Thema auseinander setzen.


Viele Grüße,
Thomas Barth

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-27 Diskussionsfäden Thomas Barth

Christian Lohmaier wrote:


Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge ausdenkt,
nur um 1 oder 2 MB Ram einzusparen :-)


Geht nicht nur um RAM, gibt ja schließlich auch andere Sprachen mit
durchaus komplexen Regeln denen man Rechnung tragen muß.


Ja, dann muss ich mich wohl noch
eingehender mit dem Thema auseinander setzen.


Scheint so. Aber ich verstehe sowieso nicht ganz, warum Du einen
eigenen Interpreter schreibst, anstatt hunspell selbst zu nutzen?



Ach, weil's Spaß macht. In meiner Java/SWT/Webstart Anwendung will ich 
außerdem weitgehend nichts Fremdes verwenden. Ich bin ein 
Selbermacher. Wenn man immer nur die Sachen anderer Leute verwenden 
würde, lernt man ja nichts mehr, außer zu konfigurieren, ist mir zu 
langweilig


Gruß,
Thomas B





-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



[de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-26 Diskussionsfäden Thomas Barth

Hallo,
ich verwende die beiden Wörterbuch-Dateien (*.dic und *.aff) in einer 
eigenen Applikation, bei der Kurznachrichten überprüft werden sollen. 
Soweit habe ich ja SFX und PFX verstanden, Nach- und Vorsilbe. Ich 
überprüfe gerade nur Wörter mit Nachsilben und schon dabei werden nicht 
alle Wörter gefunden, wie z.B. Gehe, berühre, dich, anketten, alle, denn 
, verwöhnen.


Ich möchte das mal am Beispiel verwöhnen deutlich machen. Dazu gibt es 
zwei Einträge im Wörterbuch.


verwöhnt/ACX
verwöhnte/ACNRSZ

Daraus ergeben sich dann folgende Wandlungen:

Buchwort: verwöhnt Wandlung: verwöhnte (SFX A 0 e [^elr])
Buchwort: verwöhnt Wandlung: verwöhnter (SFX A 0 er [^elr])
Buchwort: verwöhnt Wandlung: verwöhnten (SFX A 0 en [^elr])
Buchwort: verwöhnt Wandlung: verwöhntem (SFX A 0 em [^elr])
Buchwort: verwöhnt Wandlung: verwöhntes (SFX A 0 es [^elr])
Buchwort: verwöhnt Wandlung: verwöhnter (SFX C 0 er [^elr])
Buchwort: verwöhnt Wandlung: verwöhntere (SFX C 0 ere [^elr])
Buchwort: verwöhnt Wandlung: verwöhnterer (SFX C 0 erer [^elr])
Buchwort: verwöhnt Wandlung: verwöhnteren (SFX C 0 eren [^elr])
Buchwort: verwöhnt Wandlung: verwöhnterem (SFX C 0 erem [^elr])
Buchwort: verwöhnt Wandlung: verwöhnteres (SFX C 0 eres [^elr])
Buchwort: verwöhnt Wandlung: verwöhntest (SFX C 0 est [^e]t)
Buchwort: verwöhnt Wandlung: verwöhnteste (SFX C 0 este [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntester (SFX C 0 ester [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntesten (SFX C 0 esten [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntestem (SFX C 0 estem [^e]t)
Buchwort: verwöhnt Wandlung: verwöhntestes (SFX C 0 estes [^e]t)
Buchwort: verwöhnt Wandlung: verwöhnst (SFX X t st [^sz]t)
Buchwort: verwöhnte Wandlung: verwöhnter (SFX A 0 r e)
Buchwort: verwöhnte Wandlung: verwöhnten (SFX A 0 n e)
Buchwort: verwöhnte Wandlung: verwöhntem (SFX A 0 m e)
Buchwort: verwöhnte Wandlung: verwöhntes (SFX A 0 s e)
Buchwort: verwöhnte Wandlung: verwöhnter (SFX C 0 r e)
Buchwort: verwöhnte Wandlung: verwöhntere (SFX C 0 re e)
Buchwort: verwöhnte Wandlung: verwöhnterer (SFX C 0 rer e)
Buchwort: verwöhnte Wandlung: verwöhnteren (SFX C 0 ren e)
Buchwort: verwöhnte Wandlung: verwöhnterem (SFX C 0 rem e)
Buchwort: verwöhnte Wandlung: verwöhnteres (SFX C 0 res e)
Buchwort: verwöhnte Wandlung: verwöhntest (SFX C 0 st [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhnteste (SFX C 0 ste [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntester (SFX C 0 ster [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntesten (SFX C 0 sten [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntestem (SFX C 0 stem [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhntestes (SFX C 0 stes [^kßstxz])
Buchwort: verwöhnte Wandlung: verwöhnten (SFX N 0 n .)
Buchwort: verwöhnte Wandlung: verwöhnter (SFX R 0 r e)
Buchwort: verwöhnte Wandlung: verwöhntern (SFX R 0 rn e)
Buchwort: verwöhnte Wandlung: verwöhntes (SFX S 0 s [^sß])
Buchwort: verwöhnte Wandlung: verwöhntest (SFX Z 0 st [^hßsz])
Buchwort: verwöhnte Wandlung: verwöhntet (SFX Z 0 t [^dt])
Buchwort: verwöhnte Wandlung: verwöhnten (SFX Z 0 n e)

Und wieso gibt es keine Ersetzungsanweisung ersetze t oder te durch 
en? Das verstehe ich nicht, denn das Wort selbst wird ja in OpenOffice 
gefunden. Ich muss irgendetwas vergessen haben. Ja und was ist mit den 
einfachen Wörtern Gehe, dich, alle, denn wir, komm. Dafür gibt es auch 
keine Einträge.


Kann mir da jemand vielleicht weiterhelfen?

Viele Grüße,
Thomas Barth

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden

2008-08-26 Diskussionsfäden Thomas Barth

Christian Lohmaier wrote:

Hallo Thomas,

2008/8/26 Thomas Barth [EMAIL PROTECTED]:

[verwöhnen]
Und wieso gibt es keine Ersetzungsanweisung ersetze t oder te durch en?


Eine entsprechende Regel gibt nur dann Sinn, wenn es auch tatsächlich
eine Regel ist (und keine Ausnahme, oder ein Sonderfall, oder falls
das alles schon von anderen Regeln abgedeckt ist)


Das verstehe ich nicht, denn das Wort selbst wird ja in OpenOffice gefunden.


klar, gibt ja auch den Eintrag/die Einträge:
verwöhnen/DIOXY
verwöhnen/SJoz


Ich muss irgendetwas vergessen haben. Ja und was ist mit den einfachen
Wörtern Gehe, dich, alle, denn wir, komm. Dafür gibt es auch keine Einträge.


Doch, klar:
gehe: gehen/DIVXW (SFX I   n   0  en)
alle ist so drin (mit zusätzlichen Suffix-Regelungen)
denn: den/NP (SFX N   0   n  .)
wir ist so drin (ohne zusätzliche Regeln)
komm: kommen/DIVXW (SFX W   en  0  [^bght][mn]en)


Kann mir da jemand vielleicht weiterhelfen?


Offenbar ist das mit den affix-Regeln doch noch nicht so ganz klar...



Doch natürlich, ist sonnenklar, Wörterbuch scheint nicht vollständig zu 
sein und die Programmierung offensichtlich noch nicht vollständig :-)


#kein verwöhnen

489644:Verwöhner/FNS
489645:Verwöhnheit/P
489646:Verwöhntheit/P
489647:Verwöhnung/P

585001:verwöhnt/ACX
585002:verwöhnte/ACNRSZ

# kein alle

538360:allel
538361:alleluja
538362:allemal
538363:allemann

# kein wir

515409:Wiranden/Sl
515410:Wirballen/Sl
515411:Wirbel/NS

587925:wirb
587926:wirbelig/AC
587927:wirbellos/AC
587928:wirbeln/BDIOWXYcd
587929:wirbelt/EGPX
587930:wirblig/AC
587931:wirbt/X
587932:wird

Danke für die Hinweise!

Viele Grüße,
Thomas B

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]