Re: [Neo] Textcorpora der Uni Leipzig (was: Textk örper für Neo3)

Karl Köckemann Sun, 29 Nov 2009 08:29:16 -0800

Am Sun, 29 Nov 2009 08:26:33 +0100
schrieb Pascal Hauck <[email protected]>:


> Der nächste Schritt ist in der Tat, die Bi- und Trigramme auszuwerten.
> Interessant wäre z.B. die Fragestellung, welche Tupel (Leerzeichen, 
> Großbuchstabe, Kleinbuchstabe) häufig sind, so dass ein angenehmer
> Handwechsel erfolgen kann und die Hand, die Shift betätigt, nicht zu
> weit wandern muss.

Die Datenbasis hatte pro Zeile einen Satz. In Fließtexten enthalten
Absätze durchschnittlich mehr als einen Satz (wieviele?). Deshalb
fehlen beim Ergebnis die die Sätze trennenden Leerzeichen.
D. h. die Häufigkeit des Leerzeichens ist tatsächlich höher, kann jedoch
überschlagen werden (durchaus > 14 %), da die fehlenden Leerzeichen
mit CRLF (Enter) in Zusammenhang stehen.

Fünf relevante Bi- und Trigramme, die Satzende- und Satzanfangzeichen
enthalten, lassen sich mit der Datengrundlage nicht vollständig
erfassen, jedoch teilweise brauchbar abschätzen. Das wären:
Punkt | Leerzeichen
Leerzeichen | Satzanfangszeichen
letzter Buchstabe vorm Punkt | Punkt | Leerzeichen
Punkt | Leerzeichen | Satzanfangszeichen
Leerzeichen | Satzanfangszeichen | Folgezeichen des Satzanfangszeichens

Mir liegt häufiger Handwechsel beim Tippen am Herzen.
Zwischen Bi- und Trigrammen, gibt es da nicht arg viele Redundanzen?
Allein anhand von Bigrammen müssten die Handwechsel maximierbar
sein. Vielleicht läßt sich zuerst entscheiden, welche Zeichen nicht auf
derselben Hand liegen sollen, und danach welche Zeichen für welche
Fingerbereiche in Frage kommen.
Überlegung:
Die Bigramme er und rg mögen zu der Aufteilung geführt haben:
e - linke Hand
r - rechte Hand
g - linke Hand

Somit wäre das Trigramm erg ebenfalls gut zu tippen.

Da e und g vergeben wurden, mögen nun die Bigramme we und ga dazu
geführt haben:
w - rechte Hand
a - rechte Hand

Somit wären die Trigramme wer, gra ebenfalls gut zu tippen.

Doppelte Tastenanschläge ergeben sich bereits aus Bigrammen. Erst
nach Ausschöpfung der Bigramme, erscheint eine Betrachtung jener
Trigramme interessant, die alle Anschläge von einer Hand bei mindestens
zwei nicht aufeinander folgender Zeichen erfordern.

Sobald (wann kann ich nicht sagen, aber es wird länger dauern) Bigramme
(mit vielen Zeichen) aus derselben Datengrundlage vorliegen, scheint mir
sinnvoll, zuerst herauszufinden, welche Zeichen auf eine und welche auf
die andere Hand gelegt werden sollen bzw. welche Zeichen nicht auf
einer Hand liegen sollen.
Allein die Bigramme ei, ie, ai, ia, au, ua könnten dazu führen, die
Zeichen a, e, i, o, u nicht auf eine Hand zu legen - lassen wir uns
überraschen.

Was Klammern und andere in Programmiersprachen häufige Symbole angeht,
da wäre eine weitere Erfassung von Texten sinnvoll. In einer Arbeit hat
jemand beispielhaft den Quelltext des Linux-Kernels herangezogen und um
die stets ähnlichen Zeilen an den Dateianfängen bereinigt.

Mit netten Grüßen
Karl

Re: [Neo] Textcorpora der Uni Leipzig (was: Textk örper für Neo3)

Antwort per Email an