> Ganz wertlos sind die n-Gramme natürlich nicht - man kann ja auch aus Wörtern 
> (und Worthäufigkeiten) Buchstaben-n-Gramme (mit entspr. Häufigkeiten) 
> erstellen.

Solange es nur um Buchstaben geht, sollte das auch nicht schwierig sein.
Man will aber vielleicht auch Zeichen-n-Gramme mit Satzzeichen oder
Leerzeichen haben.  Immerhin sind Punkt und Komma mit jeweils gut 1%
häufiger als so mancher Buchstabe.  Leerzeichen muss man spätestens dann
mitnehmen, wenn man Zeichentrigramme (oder höhere n-Gramme) in der
Optimierung berücksichtigt.

Nun ist aber ein Wort gefolgt von einem Satzzeichen gemäss Google schon
ein Wort-Bigramm, und zwei von Leerzeichen getrennte Wörter sowieso.
Wenn man die Häufigkeit eines Zeichen-Trigramms «Satzzeichen Leerzeichen
Buchstabe» haben will, braucht man dementsprechend schon die
Google-Trigramme.  Von letzteren gibt es 200 Files pro Sprache, das
erste davon für Deutsch ist 65 MB komprimiert und 500 MB unkomprimiert
gross.

Und es ja so, dass bei einer Wortfolge W1 W2 ... Wn die Wort-Trigramme
Worte W1 und Wn einmal in den Wort-Trigrammen vorkommen, W2 und W(n-1)
zweimal, und die anderen dreimal.  Wenn n nicht sehr gross ist wird
dadurch also die naive Zählung der Zeichen-n-Gramme verfälscht.  Ich
glaube, bei Google ist n die Anzahl der Wörter pro Druckseite, was nicht
allzu viel wäre.  Man kann die Inkonsistenzen sicher rausrechnen, wenn
man die Wort-2- und -1-Gramme mit berücksichtigt.  Ziemlich viel Mühe
dafür, den statistischen Fehler der Belegungsbewertung sinnlos klein zu
machen.

Andreas





Antwort per Email an