RE: [de-users] Re: @Christian Silbentrennung

2005-09-11 Diskussionsfäden Ruth Gogoll
Hallo Christian,

> Die Wortliste mit korrigierten Trennungnen ist schonmal ein guter
> Ausgangspunkt.
> Leider kenne ich mich mit den Pattern-Generatoren auch nicht wirklich
> aus, ansonsten hätte ich angeboten basierend auf Deinem Nutzerwörterbuch
> eine aktualisierte Trennungsdatei zu erstellen..

Das ist nett von Dir, danke. :-) Ich bin überzeugt, ich finde das noch
irgendwie raus, wie ich meine korrigierten Trennungen dann auch allen
zugänglich machen kann bzw. die Silbentrennung verbessern und das allen zur
Verfügung stellen kann. Im Moment ist meine "DIC-Datei" auf eine riesige
Größe angewachsen, weil ich so viele neu getrennte Wörter darin aufnehmen
mußte, das kann ja nicht sinnvoll sein. Das muß man dann ja auch wieder
komprimieren können. Irgendwo gibt es da sicherlich eine Möglichkeit.

Vielen Dank für Deine Hilfe!

Gruß
Ruth


-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Re: @Christian Silbentrennung

2005-09-11 Diskussionsfäden Bernhard Dippold

Hallo Ruth, *

mit Deinem @Christian schließt Du mich und andere ja praktisch aus ;-)

Ruth Gogoll wrote:


[...]  Es muß einfach in den
meisten Fällen automatisch richtig von OOo getrennt werden, und das möchte
ich OOo an der richtigen Stelle vermitteln, indem ich ihm die Regeln
bekanntgebe und es dann automatisch richtig trennen kann, ohne nachträgliche
Bearbeitung.


Hast Du denn mal in lingucomponent-Projekt nachgesehen / nachgefragt?

Dort gibt es zumindest Hinweise auf die Erstellung eines neuen 
Wörterbuchs - vielleicht auch welche zur Optimierung eines 
bestehenden...


Den Link zur Projektseite hatte ich Dir schon geschickt, vielleicht 
hilft dieser Link weiter:

http://lingucomponent.openoffice.org/hyphenator.html

Ansonsten gibt es dort sowohl eine dev- als auch eine users-Liste.
Vielleicht erspart Dir das einen Teil der Arbeit...

Herzlichen Gruß

Bernhard

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [de-users] Re: @Christian Silbentrennung

2005-09-11 Diskussionsfäden Christian Lohmaier
Hallo Ruth,

On Sun, Sep 11, 2005 at 03:03:46PM +0200, Ruth Gogoll wrote:
> > na, da stimmte die Vermutung "das sind alles Textdateien, die kann
> > > man mit einem Editor editieren" wohl nicht. :-)
> >
> > Nein, das sind tatsächlich Textdateien die man mit einem Editor
> > editieren kann :-)
> > Allderdings wird die Fehlerquote ziemlich hoch sein wenn man versucht
> > die Datei manuell, ohne Hilfe eines Programms zu erstellen ;-)
> 
> > > wenn noch nicht
> > > einmal die nachträgliche korrekte Trennung eines Wortes möglich
> > > ist wie bei dem Wort "manchmal", das der Writer "man-chmal" trennt
> > > und sich standhaft weigert, trotz manuellem Trennungsstrich, es
> > > "manch-mal" zu trennen, dann muß da in irgendeiner Datei eine
> > > falsche Regel stehen. Vielleicht finde ich die und kann das
> > > korrigieren.
> >
> > Das hinzufügen von "manch=mal" zum Benutzerwörterbuch funktioniert hier
> > problemlos.
> 
> Das ist richtig, das habe ich auch schon gemacht, aber ich sitze jetzt hier
> seit vier Stunden und trage sämtliche Wörter, die OOo falsch trennt oder gar
> nicht trennt, in meine "standard.dic" ein mit "=", das sind jetzt sicherlich
> schon Hunderte, und da ich jetzt schon ziemlich erschöpft bin und ich
> sicherlich noch einige tausend solche Wörter eintragen und überall das "="
> einfügen muß, wäre mir eine Möglichkeit, das über Regeln zu definieren, die
> ich nur einmal eingeben muß und die dann angewandt werden, schon wesentlich
> lieber.

Die pattern-generatoren akzeptieren auch eine bestehende Trennliste als
Ausgangspunkt. Wenn Du wirklich schun ein paar Hundert Wörter
aufgenommen hast die OOo falsch trennt könnte das bestimmt helfen.

> [...] 
> > Und der manuelle Trennstrich bei manch-mal bringt wenig da OOo da
> > standardmäßig auch trennt,
> 
> Das tut OOo eben nicht. Das ist ja mein Problem.

Ich meinte zusätzlich. (bei mir tut es das zumindest)

> > die andere Stelle (nach "man") aber besser
> > paßt (von der Länge her).
> 
> Tut es nicht. Die Zeile davor enthält große Löcher, es wäre noch genug
> Platz, aber OOo weigert sich trotzdem "manch-mal" richtig zu trennen und
> trennt es immer falsch "man-chmal".

Bei mir wird zuerst manch-mal getrennt und wenn ich in die Zeile mehr
Zeichen einfüge man-chmal.

> Außerdem kann die Stelle "man" gar nicht
> passen, weil es diese Trennung nicht gibt. 

Ich schrieb ja "von der Länge her". OOo hat ja nur eine Liste von
Trennwahrscheinlichkeiten und keine komplette Liste aller möglichen (und
gewünschten Trennungen).

> "Manchmal" kann unter keinen wie
> immer gearteten Umständen hinter dem "man" getrennt werden, das ist einfach
> falsch, nicht korrekt.

Klar. Aber wiegesagt: das weiß OOo nicht. In der Trennregel steht halt
diese Stelle als potentielle Trennstelle drin (nicht für das Wort
"manchmal" speziell, sondern für die darin enthaltenen
Buchstabenfolgen).
 
> > Eine Alternative zur Aufnahme in das Benutzerwörterbuch ist es den
> > Wörter die Sprache "keine" zuzuweisen. Wörter mit der Sprache "keine"
> > werden nicht durch die Silbentrennung getrennt aber weiche Trenner
> > funktionieren weiterhin.
> 
> Das bedeutet dann aber, daß ich bei jedem Wort, das ich von der Trennung
> ausschließe, manuell trennen muß. Und das auf Tausenden von Seiten, die ich
> jeden Tag setze, und bei Hunderten oder vielleicht sogar Tausenden von
> Wörtern. Das ist mit dem Wort "mühsam" gar nicht mehr zu beschreiben. :-)

Ja, bei dem Umfang bringt das sicher nix.

> > Die nachträgliche Korrektur ist also auf zwei verschiedene Weisen
> > möglich.
> 
> Ist mir klar, nur kann ich nicht in jedem Text nachträglich trennen, dann
> werde ich ja in hundert Jahren nicht fertig. :-) Es muß einfach in den
> meisten Fällen automatisch richtig von OOo getrennt werden, und das möchte
> ich OOo an der richtigen Stelle vermitteln, indem ich ihm die Regeln
> bekanntgebe und es dann automatisch richtig trennen kann, ohne nachträgliche
> Bearbeitung.

Die Wortliste mit korrigierten Trennungnen ist schonmal ein guter
Ausgangspunkt.
Leider kenne ich mich mit den Pattern-Generatoren auch nicht wirklich
aus, ansonsten hätte ich angeboten basierend auf Deinem Nutzerwörterbuch
eine aktualisierte Trennungsdatei zu erstellen..

ciao
Christian
-- 
NP: Slipknot - Skin Ticket

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]