[de-users] Rechtschreibprüfung - Regeln zu comp ound words
Hi, es geht um das Wort Sportplatz, dass als Beispiel für compound words gelten soll. Da in der Manpage zu Hunspell nichts zu der Erweiterung j steht, muss ich hier noch einmal fragen. Das in Thunderbird mitgelieferte Wörterbuch kennt auch kein j, welches für 0/xoc, -/zocf oder -/cz steht. Im ersten Fall wird nach Sportplatz gesucht und bei Sport gibt es entsprechende Wandlungen, die darauf hindeuten, dass es mit einem anderen Wortstamm verbunden werden kann. Ist es richtig, dass ich dann alle Wörter aus dem Wörterbuch zusammenstellen muss, die eine ähnliche Erweiterung haben, um sie dann für einen Vergleich mit Sport kombinieren zu können? Dies würde ja jedesmal ein Durchlaufen des gesamten Wörterbuches bedeuten. * Buchwort: Sport, Suchwort: Sportplatz Extension (5):Smij fx: S Wortwandlung: Sports (.) fx: m fx: i fx: j Wortwandlung: Sport0/xoc (.) Wortwandlung: Sport-/zocf (.) Wortwandlung: Sport-/cz (.) * Buchwort: Platz, Suchwort: Platz Extension (5):Tmij fx: T Wortwandlung: Platzes (.) fx: m fx: i fx: j Wortwandlung: Platz0/xoc (.) Wortwandlung: Platz-/zocf (.) Wortwandlung: Platz-/cz (.) Sport und Platz dürfen demnach am Anfang, in der Mitte oder am Ende stehen, also Platzsport und Sportplatz? Viele Grüße, Thomas B - To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
Re: [de-users] Rechtschreibprüfung - Regeln zu compound words
Christian Lohmaier wrote: 2008/8/29 Thomas Barth [EMAIL PROTECTED]: Hi, es geht um das Wort Sportplatz, dass als Beispiel für compound words gelten soll. Da in der Manpage zu Hunspell nichts zu der Erweiterung j steht, Klar steht da nix zur Erweiterung j, weil man die Namen für die Regeln ja beliebig selbst wählen kann. Wenn Du das schon nicht verstanden hast, dann gehe zurück zu Los, ziehe keine 400 DM ein,... Auf diesen Mist kannst du gerne in Zukunft verzichten. muss ich hier noch einmal fragen. Das in Thunderbird mitgelieferte Wörterbuch kennt auch kein j, welches für 0/xoc, -/zocf oder -/cz steht. Hier: OOo-Liste, also sind die OOo-Wörtebücher maßgeblich. Was in den Thunderbirdwörtebüchern steht interessiert mich nicht. Wenn das Thunderbird keine Regel mit Namen/Bezeichner j nutzt, braucht die natürlich auch nirgends drinstehen. Man Junge, dann muss das auch in dem Handbuch erklärt werden!!! Ich denke, Thunderbird und OpenOffice orientieren sich an Hunspell! Also sind die Definitionen von Hunspell _maßgeblich_. Das Handbuch erinnert aber mehr an einer Sammlung von Notizen, die für die am Projekt beteiligten Entwickler gedacht sind. So, woher wissen die OpenOffice-Leute, dass es diesen Bezeichner gibt, wenn es nicht im Handbuch erwähnt wird? Im ersten Fall wird nach Sportplatz gesucht und bei Sport gibt es entsprechende Wandlungen, die darauf hindeuten, dass es mit einem anderen Wortstamm verbunden werden kann. Ist es richtig, dass ich dann alle Wörter aus dem Wörterbuch zusammenstellen muss, die eine ähnliche Erweiterung haben, um sie dann für einen Vergleich mit Sport kombinieren zu können? Dies würde ja jedesmal ein Durchlaufen des gesamten Wörterbuches bedeuten. Mit Erweiterung hat das nix zu tun. Wörter kann man nur mit anderen Wörtern verbinden, die das auch erlauben - und dann auch nur wenn das Wort an der richtigen Stelle landet (Am Anfang, in der Mitte, am Ende) - sprich: Wenn die Affix-Regeln es erlauben. Du kannst leider nicht so gut erklären. Wenn jemand etwas nicht versteht, musst du dich immer zuerst fragen, habe ich es gut genug erklärt oder sind die Dokumentationen ordentlich geschrieben. * Buchwort: Sport, Suchwort: Sportplatz Extension (5):Smij fx: S Wortwandlung: Sports (.) fx: m fx: i fx: j Wortwandlung: Sport0/xoc (.) Wortwandlung: Sport-/zocf (.) Wortwandlung: Sport-/cz (.) Keine Ahnung, was das für eine Darstellung sein soll. Entweder du Denken hilft. Buchwort Sport ist ein Wörterbucheintrag. Smij dürfte dir als Erweiterung wohl bekannt sein. Daraus ergeben sich Wortwandlungen. Ganz einfach. Betrachte es als Pseudocode einer Schleife. gibts konkret die Wörterbucheinträge und die dazugehörigen affix-Regeln an, oder besser: Gehe eine Stufe in der Entwicklung zurück, nutze Wörterbücher/Spellchecker die das noch nicht kannten. Nein! Wie kannst du es überbrigens wagen, dich aufgrund deines Mehrwissens in diesem Bereich über andere zu stellen? So etwas macht man nicht, ist aber typisch deutsch, deshalb nehme ich dir es nicht ganz so übel. Stell dies bitte sofort ein, wenn du daran interessiert bist, dass ich deine Antworten lese. Sport und Platz dürfen demnach am Anfang, in der Mitte oder am Ende stehen, also Platzsport und Sportplatz? nicht im OOo-Wörterbuch. Platz/ox (o=ONLYINCOMPOUND, x=COMPOUNDBEGIN) - Sportplatz wäre also nicht als Kombination von Sport (ebenfalls /ox) und Platz möglich, aber dafür steht Sportplatz auch als eigener Eintrag im Wörterbuch. (bezieht sich alles auf die Wörterbücher, so wie sie mit der 2.4.1 ausgeliefert werden) Aber auch in den 3er Wörterbüchern wäre das nicht erlaubt. Offenbar ignorierst Du, daß mache Regeln Prefix und manche Regel Suffix Regeln sind. Da der Prefix-Kram überflüssig ist, extrahiere ich beim Laden des Wörterbuches alle Prefix-Angaben, so dass sich das Wörterbuch um ein paar tausend Einträge vergrößert. Denn ich habe keine Lust, ein Wort in beide Richtungen zu überprüfen. Beispiel unkonkret. Steht so nicht im Wörterbuch, ergibt sich aber erst durch die Erweiterungen bei konkret. MB-Ram-Verbrauch vs. Komplexität. Speicher gibt es genug und solange die Suche nach einem Wort unter 5 ms bleibt, bin ich damit zufrieden. Das Wörterbuch in Thunderbird hat sogar 9 MB und kommt daher ohne Schnickschnack aus! Daran hatte ich mich zuerst orientiert, wollte mir aber noch das Wörterbuch von OpenOffice ansehen, um dann sagen zu können, was für meine Applikation besser ist. Viele Grüße, Thomas Barth - To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden
Thomas Barth wrote: aus ergeben sich dann folgende Wandlungen: Buchwort: verwöhnt Wandlung: verwöhnte (SFX A 0 e [^elr]) Kann mir einer sagen, was das hier soll? SFX j Y 3 SFX j 0 0/xoc . SFX j 0 -/zocf . SFX j 0 -/cz . Brust mit der Erweitung /ijm wird dann zu Brust0/xoc, Brust-/zocf, Brust-/cz? Jetzt muss ich etwa auch noch überprüfen, ob die Ersetzung ebenfalls noch Angaben zu einer Wortwandlung hat? Bitte sagt mir, dass die mitgelieferte aff-Datei fehlerhaft ist. Viele Grüße, Thomas Barth - To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden
Christian Lohmaier wrote: Wenn man schon Wörterbücher selbt woanders wiederverwenden will, dann schadet es nicht, sich zumindest die dazugeörige Dokumentation (hier:hunspell-manpages/Readmes) durchzulesen. Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge ausdenkt, nur um 1 oder 2 MB Ram einzusparen :-) Ja, dann muss ich mich wohl noch eingehender mit dem Thema auseinander setzen. Viele Grüße, Thomas Barth - To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden
Christian Lohmaier wrote: Ja, wer hätte denn gedacht, dass Ihr euch so komplizierte Dinge ausdenkt, nur um 1 oder 2 MB Ram einzusparen :-) Geht nicht nur um RAM, gibt ja schließlich auch andere Sprachen mit durchaus komplexen Regeln denen man Rechnung tragen muß. Ja, dann muss ich mich wohl noch eingehender mit dem Thema auseinander setzen. Scheint so. Aber ich verstehe sowieso nicht ganz, warum Du einen eigenen Interpreter schreibst, anstatt hunspell selbst zu nutzen? Ach, weil's Spaß macht. In meiner Java/SWT/Webstart Anwendung will ich außerdem weitgehend nichts Fremdes verwenden. Ich bin ein Selbermacher. Wenn man immer nur die Sachen anderer Leute verwenden würde, lernt man ja nichts mehr, außer zu konfigurieren, ist mir zu langweilig Gruß, Thomas B - To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
[de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden
Hallo, ich verwende die beiden Wörterbuch-Dateien (*.dic und *.aff) in einer eigenen Applikation, bei der Kurznachrichten überprüft werden sollen. Soweit habe ich ja SFX und PFX verstanden, Nach- und Vorsilbe. Ich überprüfe gerade nur Wörter mit Nachsilben und schon dabei werden nicht alle Wörter gefunden, wie z.B. Gehe, berühre, dich, anketten, alle, denn , verwöhnen. Ich möchte das mal am Beispiel verwöhnen deutlich machen. Dazu gibt es zwei Einträge im Wörterbuch. verwöhnt/ACX verwöhnte/ACNRSZ Daraus ergeben sich dann folgende Wandlungen: Buchwort: verwöhnt Wandlung: verwöhnte (SFX A 0 e [^elr]) Buchwort: verwöhnt Wandlung: verwöhnter (SFX A 0 er [^elr]) Buchwort: verwöhnt Wandlung: verwöhnten (SFX A 0 en [^elr]) Buchwort: verwöhnt Wandlung: verwöhntem (SFX A 0 em [^elr]) Buchwort: verwöhnt Wandlung: verwöhntes (SFX A 0 es [^elr]) Buchwort: verwöhnt Wandlung: verwöhnter (SFX C 0 er [^elr]) Buchwort: verwöhnt Wandlung: verwöhntere (SFX C 0 ere [^elr]) Buchwort: verwöhnt Wandlung: verwöhnterer (SFX C 0 erer [^elr]) Buchwort: verwöhnt Wandlung: verwöhnteren (SFX C 0 eren [^elr]) Buchwort: verwöhnt Wandlung: verwöhnterem (SFX C 0 erem [^elr]) Buchwort: verwöhnt Wandlung: verwöhnteres (SFX C 0 eres [^elr]) Buchwort: verwöhnt Wandlung: verwöhntest (SFX C 0 est [^e]t) Buchwort: verwöhnt Wandlung: verwöhnteste (SFX C 0 este [^e]t) Buchwort: verwöhnt Wandlung: verwöhntester (SFX C 0 ester [^e]t) Buchwort: verwöhnt Wandlung: verwöhntesten (SFX C 0 esten [^e]t) Buchwort: verwöhnt Wandlung: verwöhntestem (SFX C 0 estem [^e]t) Buchwort: verwöhnt Wandlung: verwöhntestes (SFX C 0 estes [^e]t) Buchwort: verwöhnt Wandlung: verwöhnst (SFX X t st [^sz]t) Buchwort: verwöhnte Wandlung: verwöhnter (SFX A 0 r e) Buchwort: verwöhnte Wandlung: verwöhnten (SFX A 0 n e) Buchwort: verwöhnte Wandlung: verwöhntem (SFX A 0 m e) Buchwort: verwöhnte Wandlung: verwöhntes (SFX A 0 s e) Buchwort: verwöhnte Wandlung: verwöhnter (SFX C 0 r e) Buchwort: verwöhnte Wandlung: verwöhntere (SFX C 0 re e) Buchwort: verwöhnte Wandlung: verwöhnterer (SFX C 0 rer e) Buchwort: verwöhnte Wandlung: verwöhnteren (SFX C 0 ren e) Buchwort: verwöhnte Wandlung: verwöhnterem (SFX C 0 rem e) Buchwort: verwöhnte Wandlung: verwöhnteres (SFX C 0 res e) Buchwort: verwöhnte Wandlung: verwöhntest (SFX C 0 st [^kßstxz]) Buchwort: verwöhnte Wandlung: verwöhnteste (SFX C 0 ste [^kßstxz]) Buchwort: verwöhnte Wandlung: verwöhntester (SFX C 0 ster [^kßstxz]) Buchwort: verwöhnte Wandlung: verwöhntesten (SFX C 0 sten [^kßstxz]) Buchwort: verwöhnte Wandlung: verwöhntestem (SFX C 0 stem [^kßstxz]) Buchwort: verwöhnte Wandlung: verwöhntestes (SFX C 0 stes [^kßstxz]) Buchwort: verwöhnte Wandlung: verwöhnten (SFX N 0 n .) Buchwort: verwöhnte Wandlung: verwöhnter (SFX R 0 r e) Buchwort: verwöhnte Wandlung: verwöhntern (SFX R 0 rn e) Buchwort: verwöhnte Wandlung: verwöhntes (SFX S 0 s [^sß]) Buchwort: verwöhnte Wandlung: verwöhntest (SFX Z 0 st [^hßsz]) Buchwort: verwöhnte Wandlung: verwöhntet (SFX Z 0 t [^dt]) Buchwort: verwöhnte Wandlung: verwöhnten (SFX Z 0 n e) Und wieso gibt es keine Ersetzungsanweisung ersetze t oder te durch en? Das verstehe ich nicht, denn das Wort selbst wird ja in OpenOffice gefunden. Ich muss irgendetwas vergessen haben. Ja und was ist mit den einfachen Wörtern Gehe, dich, alle, denn wir, komm. Dafür gibt es auch keine Einträge. Kann mir da jemand vielleicht weiterhelfen? Viele Grüße, Thomas Barth - To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
Re: [de-users] Wortstamm-Erweiterungen, eigentlich klar, aber nicht alles wird gefunden
Christian Lohmaier wrote: Hallo Thomas, 2008/8/26 Thomas Barth [EMAIL PROTECTED]: [verwöhnen] Und wieso gibt es keine Ersetzungsanweisung ersetze t oder te durch en? Eine entsprechende Regel gibt nur dann Sinn, wenn es auch tatsächlich eine Regel ist (und keine Ausnahme, oder ein Sonderfall, oder falls das alles schon von anderen Regeln abgedeckt ist) Das verstehe ich nicht, denn das Wort selbst wird ja in OpenOffice gefunden. klar, gibt ja auch den Eintrag/die Einträge: verwöhnen/DIOXY verwöhnen/SJoz Ich muss irgendetwas vergessen haben. Ja und was ist mit den einfachen Wörtern Gehe, dich, alle, denn wir, komm. Dafür gibt es auch keine Einträge. Doch, klar: gehe: gehen/DIVXW (SFX I n 0 en) alle ist so drin (mit zusätzlichen Suffix-Regelungen) denn: den/NP (SFX N 0 n .) wir ist so drin (ohne zusätzliche Regeln) komm: kommen/DIVXW (SFX W en 0 [^bght][mn]en) Kann mir da jemand vielleicht weiterhelfen? Offenbar ist das mit den affix-Regeln doch noch nicht so ganz klar... Doch natürlich, ist sonnenklar, Wörterbuch scheint nicht vollständig zu sein und die Programmierung offensichtlich noch nicht vollständig :-) #kein verwöhnen 489644:Verwöhner/FNS 489645:Verwöhnheit/P 489646:Verwöhntheit/P 489647:Verwöhnung/P 585001:verwöhnt/ACX 585002:verwöhnte/ACNRSZ # kein alle 538360:allel 538361:alleluja 538362:allemal 538363:allemann # kein wir 515409:Wiranden/Sl 515410:Wirballen/Sl 515411:Wirbel/NS 587925:wirb 587926:wirbelig/AC 587927:wirbellos/AC 587928:wirbeln/BDIOWXYcd 587929:wirbelt/EGPX 587930:wirblig/AC 587931:wirbt/X 587932:wird Danke für die Hinweise! Viele Grüße, Thomas B - To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]