Re: Re: Fwd: Re: [neo] Statistik (war: Frage bzw. Anregung: Warum kein Forum?)

koeckema Tue, 17 Mar 2009 10:49:47 -0700

Diese drei Listen der häufigsten Bigramme, Trigramme und Wörter dienten als 
Grundlage, im Folgenden Ursprungslisten genannt:
http://wiki.neo-layout.org/browser/statistik/Leipzig


Ob in diesen drei Ursprungslisten die Bigramme und Trigramme bereits nach 
Häufigkeit ihres Vorkommens in den häufigsten Wörtern gewichtet sind, das weiß 
ich nicht.

Aus den drei Ursprungslisten wurden mittels Regular Expressions die Einträge 
gestrichen, die sich bei Neo2-Belegung mit der linken, bzw. der rechten Hand 
mit oder ohne Umschalt-Taste nicht tippen lassen.
Das bedeutet: Die Häufigkeiten wurden nicht erneut analysiert. Pro erhaltener 
Unterliste blieb die Reihenfolge erhalten, in der sie in der Ursprungsliste 
eingetragen waren - die ja nach Häufigkeit sortiert ist.

War diese Herangehensweise ungeeignet, um Unterlisten zum Generieren von 
Übungslektionen zu erstellen?
Wäre es sinnvoller, wenn beim nächsten Mal die in der Ursprungsliste zu jedem 
Eintrag stehenden Häufigkeitswerte mit in die Unterlisten übernommen werden?
Falls ja, das würde ich machen.


Nebenbei:
Heute stolperte ich in dem Wikipedia-Artikel
http://de.wikipedia.org/wiki/Buchstabenh%C3%A4ufigkeit
im ersten Absatz über den Satz:
"Während frühere Annahmen pauschal die statistische Verteilung der 
Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die 
Quantitative Linguistik gezeigt, dass eine Reihe anderer 
Wahrscheinlichkeitsverteilungen [1] in Betracht zu ziehen sind (Best 2005)."

Selber kann ich mit dem Satz nicht sonderlich viel anfangen, dachte aber, dass 
er für Pascal interessant sein könnte.

Re: Re: Fwd: Re: [neo] Statistik (war: Frage bzw. Anregung: Warum kein Forum?)

Antwort per Email an