Am Sun, 29 Nov 2009 08:26:33 +0100 schrieb Pascal Hauck <[email protected]>:
> Der nächste Schritt ist in der Tat, die Bi- und Trigramme auszuwerten. > Interessant wäre z.B. die Fragestellung, welche Tupel (Leerzeichen, > Großbuchstabe, Kleinbuchstabe) häufig sind, so dass ein angenehmer > Handwechsel erfolgen kann und die Hand, die Shift betätigt, nicht zu > weit wandern muss. Die Datenbasis hatte pro Zeile einen Satz. In Fließtexten enthalten Absätze durchschnittlich mehr als einen Satz (wieviele?). Deshalb fehlen beim Ergebnis die die Sätze trennenden Leerzeichen. D. h. die Häufigkeit des Leerzeichens ist tatsächlich höher, kann jedoch überschlagen werden (durchaus > 14 %), da die fehlenden Leerzeichen mit CRLF (Enter) in Zusammenhang stehen. Fünf relevante Bi- und Trigramme, die Satzende- und Satzanfangzeichen enthalten, lassen sich mit der Datengrundlage nicht vollständig erfassen, jedoch teilweise brauchbar abschätzen. Das wären: Punkt | Leerzeichen Leerzeichen | Satzanfangszeichen letzter Buchstabe vorm Punkt | Punkt | Leerzeichen Punkt | Leerzeichen | Satzanfangszeichen Leerzeichen | Satzanfangszeichen | Folgezeichen des Satzanfangszeichens Mir liegt häufiger Handwechsel beim Tippen am Herzen. Zwischen Bi- und Trigrammen, gibt es da nicht arg viele Redundanzen? Allein anhand von Bigrammen müssten die Handwechsel maximierbar sein. Vielleicht läßt sich zuerst entscheiden, welche Zeichen nicht auf derselben Hand liegen sollen, und danach welche Zeichen für welche Fingerbereiche in Frage kommen. Überlegung: Die Bigramme er und rg mögen zu der Aufteilung geführt haben: e - linke Hand r - rechte Hand g - linke Hand Somit wäre das Trigramm erg ebenfalls gut zu tippen. Da e und g vergeben wurden, mögen nun die Bigramme we und ga dazu geführt haben: w - rechte Hand a - rechte Hand Somit wären die Trigramme wer, gra ebenfalls gut zu tippen. Doppelte Tastenanschläge ergeben sich bereits aus Bigrammen. Erst nach Ausschöpfung der Bigramme, erscheint eine Betrachtung jener Trigramme interessant, die alle Anschläge von einer Hand bei mindestens zwei nicht aufeinander folgender Zeichen erfordern. Sobald (wann kann ich nicht sagen, aber es wird länger dauern) Bigramme (mit vielen Zeichen) aus derselben Datengrundlage vorliegen, scheint mir sinnvoll, zuerst herauszufinden, welche Zeichen auf eine und welche auf die andere Hand gelegt werden sollen bzw. welche Zeichen nicht auf einer Hand liegen sollen. Allein die Bigramme ei, ie, ai, ia, au, ua könnten dazu führen, die Zeichen a, e, i, o, u nicht auf eine Hand zu legen - lassen wir uns überraschen. Was Klammern und andere in Programmiersprachen häufige Symbole angeht, da wäre eine weitere Erfassung von Texten sinnvoll. In einer Arbeit hat jemand beispielhaft den Quelltext des Linux-Kernels herangezogen und um die stets ähnlichen Zeilen an den Dateianfängen bereinigt. Mit netten Grüßen Karl
