Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen
> Ganz wertlos sind die n-Gramme natürlich nicht - man kann ja auch aus Wörtern > (und Worthäufigkeiten) Buchstaben-n-Gramme (mit entspr. Häufigkeiten) > erstellen. Solange es nur um Buchstaben geht, sollte das auch nicht schwierig sein. Man will aber vielleicht auch Zeichen-n-Gramme mit Satzzeichen oder Leerzeichen haben. Immerhin sind Punkt und Komma mit jeweils gut 1% häufiger als so mancher Buchstabe. Leerzeichen muss man spätestens dann mitnehmen, wenn man Zeichentrigramme (oder höhere n-Gramme) in der Optimierung berücksichtigt. Nun ist aber ein Wort gefolgt von einem Satzzeichen gemäss Google schon ein Wort-Bigramm, und zwei von Leerzeichen getrennte Wörter sowieso. Wenn man die Häufigkeit eines Zeichen-Trigramms «Satzzeichen Leerzeichen Buchstabe» haben will, braucht man dementsprechend schon die Google-Trigramme. Von letzteren gibt es 200 Files pro Sprache, das erste davon für Deutsch ist 65 MB komprimiert und 500 MB unkomprimiert gross. Und es ja so, dass bei einer Wortfolge W1 W2 ... Wn die Wort-Trigramme Worte W1 und Wn einmal in den Wort-Trigrammen vorkommen, W2 und W(n-1) zweimal, und die anderen dreimal. Wenn n nicht sehr gross ist wird dadurch also die naive Zählung der Zeichen-n-Gramme verfälscht. Ich glaube, bei Google ist n die Anzahl der Wörter pro Druckseite, was nicht allzu viel wäre. Man kann die Inkonsistenzen sicher rausrechnen, wenn man die Wort-2- und -1-Gramme mit berücksichtigt. Ziemlich viel Mühe dafür, den statistischen Fehler der Belegungsbewertung sinnlos klein zu machen. Andreas
Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen
Am Freitag, 13. Januar 2012, 10:31:49 schrieb Karl Köckemann: > Da die n-Gramme aus einem Textkorpus erzeugt werden können und ein > Textkorpus für die Überprüfung einer Tastenbelegung praktischer erscheint, > sind Textkorpusse für Neo viel interessanter als fertige n-Gramme aus nicht > reproduzierbarem Ursprung. Ganz wertlos sind die n-Gramme natürlich nicht - man kann ja auch aus Wörtern (und Worthäufigkeiten) Buchstaben-n-Gramme (mit entspr. Häufigkeiten) erstellen. Mit Googles Daten sogar in Abhängigkeit von Jahreszahlen, wenn ich das richtig sehe (Erscheinungsdaten der Bücher nehme ich an). Ist sicherlich kein Ersatz für einen bekannten, spezialisierten Korpus (auch weil Zeichen fehlen, denke ich), aber trotzdem statistisch gesehen wertvoll, alleine wegen des Umfangs. Ciao, Hans
Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen
Hallo Matija, Matija Šuklje writes: > Ich weiß nicht ob ihr's wüstet, aber Google Books macht — und veröffentlicht! > — auch n-grame für die Bücher die ihr gescant haben: > > http://books.google.com/ngrams/datasets > > Vielleicht würde das bei der Neo3 ja helfen... Viele veröffentlichte n-Gramme haben als kleinstes Fragment ein ganzes Wort - auch die von Google. Bei den meisten Tastenbelegungen wird pro Tastendruck kein ganzes Wort, sondern ein Buchstabe ausgegeben. Daher sind auch für Neo n-Gramme interessanter, die als kleinstes Fragment ein Zeichen (statt ein Wort) haben. Da die n-Gramme aus einem Textkorpus erzeugt werden können und ein Textkorpus für die Überprüfung einer Tastenbelegung praktischer erscheint, sind Textkorpusse für Neo viel interessanter als fertige n-Gramme aus nicht reproduzierbarem Ursprung. Wenn ich mich richtig erinnere, mangelt es noch an einem oder mehreren verfügbaren und uneingeschränkt nutzbaren großen Textkorpussen. Bei meiner damaligen Suche danach, habe ich das Ziel nicht erreicht. Oder haben wir inzwischen weitere Korpusse? Mit netten Grüßen Karl
Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen
Am Samstag, 7. Januar 2012, 19:50:13 schrieb Matija Šuklje: > Hey, > > Ich weiß nicht ob ihr's wüstet, aber Google Books macht — und > veröffentlicht! — auch n-grame für die Bücher die ihr gescant haben: > > http://books.google.com/ngrams/datasets Jupp, die sind sehr cool. Allerdings sind es Wort-NGramme, nicht Buchstaben-NGramme, das heißt, wir müssten die ~30GiB an Daten noch parsen und hätten dadurch nur den Literaturteil, aber nicht den Teil zu normalen Texten. Es wäre aber auf jeden Fall eine klasse Ergänzung. Liebe Grüße, Arne -- 1w6 sie zu achten, sie alle zu finden, in Spiele zu leiten und sacht zu verbinden. → http://1w6.org signature.asc Description: This is a digitally signed message part.
[Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen
Hey, Ich weiß nicht ob ihr's wüstet, aber Google Books macht — und veröffentlicht! — auch n-grame für die Bücher die ihr gescant haben: http://books.google.com/ngrams/datasets Vielleicht würde das bei der Neo3 ja helfen... mfG, Matija -- gsm:+386 41 849 552 www:http://matija.suklje.name xmpp: matija.suk...@gabbler.org sip:matija_suk...@ippi.fr signature.asc Description: This is a digitally signed message part.