Diese drei Listen der häufigsten Bigramme, Trigramme und Wörter dienten als Grundlage, im Folgenden Ursprungslisten genannt: http://wiki.neo-layout.org/browser/statistik/Leipzig
Ob in diesen drei Ursprungslisten die Bigramme und Trigramme bereits nach Häufigkeit ihres Vorkommens in den häufigsten Wörtern gewichtet sind, das weiß ich nicht. Aus den drei Ursprungslisten wurden mittels Regular Expressions die Einträge gestrichen, die sich bei Neo2-Belegung mit der linken, bzw. der rechten Hand mit oder ohne Umschalt-Taste nicht tippen lassen. Das bedeutet: Die Häufigkeiten wurden nicht erneut analysiert. Pro erhaltener Unterliste blieb die Reihenfolge erhalten, in der sie in der Ursprungsliste eingetragen waren - die ja nach Häufigkeit sortiert ist. War diese Herangehensweise ungeeignet, um Unterlisten zum Generieren von Übungslektionen zu erstellen? Wäre es sinnvoller, wenn beim nächsten Mal die in der Ursprungsliste zu jedem Eintrag stehenden Häufigkeitswerte mit in die Unterlisten übernommen werden? Falls ja, das würde ich machen. Nebenbei: Heute stolperte ich in dem Wikipedia-Artikel http://de.wikipedia.org/wiki/Buchstabenh%C3%A4ufigkeit im ersten Absatz über den Satz: "Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die Quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen [1] in Betracht zu ziehen sind (Best 2005)." Selber kann ich mit dem Satz nicht sonderlich viel anfangen, dachte aber, dass er für Pascal interessant sein könnte.
