Hallo, Am Sun, 13 Dec 2009 15:23:16 +0100 schrieb wettstein...@solnet.ch:
> Ich habe den Optimierer so erweitert, dass er Shift berücksichtigen > kann. [...] Für den Vergleich habe ich den Leipziger Textkorpus > verwendet (genauer gesagt die Tabellen «1gramme.txt» und > «2gramme.txt» die Karl daraus erzeugt hat). Gerade versuche ich den Leipziger Textkorpus von ein paar Fehlern und überrepräsentierten Kürzeln zu befreien, z. B. (dpa), (AFP), (Reuter). Leider sind viele Städtenamen komplett in Großbuchstaben geschrieben (FRANKFURT, BERLIN, etc.), wodurch die Häufigkeiten der Großbuchstaben ein wenig verzerrt sein könnten. Wie das in dem Korpus umfassend behoben werden kann, ist mir noch nicht klar. Unter den 80 % der häufigsten Wörter sollen die der alten Rechtschreibung unterliegenden zur Neuen Rechtschreibung übertragen werden. Auf s und insbesondere auf ß wird sich das auswirken. Zu dem auf den Leipziger Textkorpus basierenden bereinigten Textkörper sollen neue Listen mit Bigrammen und Zeichenhäufigkeiten aufgestellt werden. Dennoch werden wir weitere Textkörper brauchen, da im Leipziger Textkorpus zwar auch Sätze aus ein paar Fachbüchern stehen, jedoch basiert er überwiegend aus Zeitungsartikeln. Der Leipziger Textkorpus enthält übermäßig viele Personen- und Ortsnamen, die von den meisten Tastschreibern höchst selten geschrieben werden, sich aber vermutlich unerwünscht auf die Bigrammliste auswirken. Ist abschätzbar, ob ein auf Wikipedia basierender Textkörper ebenfalls zuviele Namen enthielte? Angenehm wäre ein umfangreicher deutschsprachiger Textkörper in Neuer Rechtschreibung ohne Personennamen bzw. geografische Namen (einer der vielen Korpora des IDS Mannheim wäre reichlich teuer). Die Untersuchungen mit Bigrammen legen nahe, dass ein 300-Millionen-Zeichen-Textkörper bei weniger häufigen Bigrammen gerade genug Häufigkeiten liefert, damit anschließende Berechungen, um keine zu hohe Fehlerrate erwarten zu müssen. Wie das für Trigramme aussähe, damit habe ich mich bislang nicht befasst. Mit netten Grüßen Karl