> Mittel rel. Fehler Files Zeilen Tastatur > -------------------------------------------- > 236.353 0.00140541 100 10000 optimiert > 236.357 0.00394096 1000 1000 optimiert > > 984.445 0.000574423 100 10000 pessimiert > 984.446 0.0018825 1000 1000 pessimiert > > So ein 10000-Zeilen-File hat etwa 1.1 MByte, und der relative > statistische Fehler der Bewertung ist im Promillebereich. Wenn wir uns > als Ziel setzen, den statistischen Fehler unter einem Promille zu halten > (die Willkür im Bewertungschema wird viel größer sein als das), ist ein > Korpus von 3 MByte also groß genug.
Hervorragend, wenn ich das sagen darf… Ich bin mich aber immer noch im Nacken am Kratzen wegen den unterschiedlichen Ergebnissen unserer Auswertungsversuche. Ganz habe ich es nicht verstanden. Irgendwie kann es ja nicht sein, dass wir aus einem identischen Textkorpus unterschiedliche Bigramme ziehen. (Ich habe allerdings alle Bigramme in Kleinbuchstaben gezogen, und Komma und Punkt als Buchstaben behandelt, Karl hatte das etwas anders gehandhabt, ich glaube, das erklärt zum Teil den Unterschied. Und ich habe die Shift-Taste einfach ignoriert. Oder ich habe irgendeinen unverzeihlichen Fehler gemacht, ich finde ihn nur nicht). Nach deiner Berechnung müssen wir also eigentlich das gleiche herausbekommen, ob wir nun die 1M oder die 3M Datei benutzen, richtig? Das heißt, der Unterschied zwischen unseren Ergebnissen ist eher systematisch bedingt als dass er auf unterschiedlicher Korpusgröße beruht. Nun hieß in diesem Fall 1M (im Leipziger Korpus) „eine Million Zeilen“ oder so, nicht „eine Million Bytes“. Demnach wäre die 1M Datei also reichlich groß genug, ich hoffe, ich habe hier nichts missverstanden. Es ist jedenfalls angenehm zu wissen, in Zahlen also, dass die Korpusgröße ab einer gewissen Größe aufwärts nicht mehr so viel bringt (also, vermutet wurde das ja schon mehrmals), und es ist schön, eine qualifizierte Schätzung über die mutmaßliche Fehlergröße zu haben. Alle Achtung vor deinen hartnäckigen Bemühungen, der Wahrheit näher zu kommen. Übrigens (hier etwas off topic): Ich habe es so verstanden, dass man im allgemeinen gerne sähe, dass es zu Vergleichszwecken EINEN Korpus gäbe, auf den man sich beziehen könnte. Ich nehme an, dass man daraus auch eine Liste aller Bigramme machen kann, über die alle sich einig sind, so schwierig ist das ja nun auch nicht. Da muss man sich aber einig werden, ob Punkt und Komma Teil der Bigramme sein sollen, oder gar andere Zeichen, die auf einer anderen Ebene liegen usw. Ich hatte das Alphabet gleichgesetzt mit den 32 Tasten, die verteilt werden sollen. Letztendlich muss man auch erörtern, ob das mit der Shift-Taste wirklich ein Kriterium ist, um eine Tastatur der anderen Vorzuziehen. Ich meine ja hier, wenn ich links Shift drücke, und rechts das „n“ (um ein großes N zu schreiben), und danach den linken Kleinfinger sofort wieder betätige, dann ist das nicht ganz so schlimm als wenn ich den linken kleinen Finger mitten drin in einem Wort zweimal hinter einander benutzen müsste. Die Frage ist, ob es wirklich überhaupt schlimmer ist, als wenn ich nach dem großen N den Zeigefinger benutzen würde. Und wenn es schlimm ist, wie schlimm ist es dann (in % der normalen Strafpunkte ausgedrückt). Ich meine, eines ist, dass jemand sich wünscht, grundsätzlich auf die Shift-Taste zu gucken, das ist ja ein legitimer Wunsch, ein anderes ist, wie sehr dieses Hingucken die Bewertung beeinflusst. Das ist mit dem wie mit der Fingerverteilung. Hier gibt es noch Klärungsbedarf, und zwar nicht von mir, denn ich bin ein überzeugter Shift-Tasten-Ignorierer, sondern von den übrigen Listenmitgliedern. Ulf