>  Mittel rel. Fehler  Files Zeilen  Tastatur
> --------------------------------------------
> 236.353 0.00140541  100    10000  optimiert
> 236.357 0.00394096  1000    1000  optimiert
> 
> 984.445 0.000574423 100    10000  pessimiert
> 984.446 0.0018825   1000    1000  pessimiert
> 
> So ein 10000-Zeilen-File hat etwa 1.1 MByte, und der relative
> statistische Fehler der Bewertung ist im Promillebereich.  Wenn wir uns
> als Ziel setzen, den statistischen Fehler unter einem Promille zu halten
> (die Willkür im Bewertungschema wird viel größer sein als das), ist ein
> Korpus von 3 MByte also groß genug.

Hervorragend, wenn ich das sagen darf…

Ich bin mich aber immer noch im Nacken am Kratzen wegen den
unterschiedlichen Ergebnissen unserer Auswertungsversuche. Ganz habe ich
es nicht verstanden. Irgendwie kann es ja nicht sein, dass wir aus einem
identischen Textkorpus unterschiedliche Bigramme ziehen. (Ich habe
allerdings alle Bigramme in Kleinbuchstaben gezogen, und Komma und Punkt
als Buchstaben behandelt, Karl hatte das etwas anders gehandhabt, ich
glaube, das erklärt zum Teil den Unterschied. Und ich habe die
Shift-Taste einfach ignoriert. Oder ich habe irgendeinen unverzeihlichen
Fehler gemacht, ich finde ihn nur nicht). 

Nach deiner Berechnung müssen wir also eigentlich das gleiche
herausbekommen, ob wir nun die 1M oder die 3M Datei benutzen, richtig?
Das heißt, der Unterschied zwischen unseren Ergebnissen ist eher
systematisch bedingt als dass er auf unterschiedlicher Korpusgröße
beruht. Nun hieß in diesem Fall 1M (im Leipziger Korpus) „eine Million
Zeilen“ oder so, nicht „eine Million Bytes“. Demnach wäre die 1M Datei
also reichlich groß genug, ich hoffe, ich habe hier nichts
missverstanden.

Es ist jedenfalls angenehm zu wissen, in Zahlen also, dass die
Korpusgröße ab einer gewissen Größe aufwärts nicht mehr so viel bringt
(also, vermutet wurde das ja schon mehrmals), und es ist schön, eine
qualifizierte Schätzung über die mutmaßliche Fehlergröße zu haben. Alle
Achtung vor deinen hartnäckigen Bemühungen, der Wahrheit näher zu
kommen.

Übrigens (hier etwas off topic): Ich habe es so verstanden, dass man im
allgemeinen gerne sähe, dass es zu Vergleichszwecken EINEN Korpus gäbe,
auf den man sich beziehen könnte. Ich nehme an, dass man daraus auch
eine Liste aller Bigramme machen kann, über die alle sich einig sind, so
schwierig ist das ja nun auch nicht. Da muss man sich aber einig werden,
ob Punkt und Komma Teil der Bigramme sein sollen, oder gar andere
Zeichen, die auf einer anderen Ebene liegen usw. Ich hatte das Alphabet
gleichgesetzt mit den 32 Tasten, die verteilt werden sollen.
Letztendlich muss man auch erörtern, ob das mit der Shift-Taste wirklich
ein Kriterium ist, um eine Tastatur der anderen Vorzuziehen. Ich meine
ja hier, wenn ich links Shift drücke, und rechts das „n“ (um ein großes
N zu schreiben), und danach den linken Kleinfinger sofort wieder
betätige, dann ist das nicht ganz so schlimm als wenn ich den linken
kleinen Finger mitten drin in einem Wort zweimal hinter einander
benutzen müsste. Die Frage ist, ob es wirklich überhaupt schlimmer ist,
als wenn ich nach dem großen N den Zeigefinger benutzen würde. Und wenn
es schlimm ist, wie schlimm ist es dann (in % der normalen Strafpunkte
ausgedrückt). Ich meine, eines ist, dass jemand sich wünscht,
grundsätzlich auf die Shift-Taste zu gucken, das ist ja ein legitimer
Wunsch, ein anderes ist, wie sehr dieses Hingucken die Bewertung
beeinflusst. Das ist mit dem wie mit der Fingerverteilung. Hier gibt es
noch Klärungsbedarf, und zwar nicht von mir, denn ich bin ein
überzeugter Shift-Tasten-Ignorierer, sondern von den übrigen
Listenmitgliedern.

Ulf


Antwort per Email an