Chris K via Diskussion <[email protected]> writes:

> Nun habe ich beobachtet - oder meine es zumindest - dass es eine
> gewisse Diskrepanz gibt zwischen dem numerischen Output eines
> Optimierers (score oder cost) und der "gefühlten Verbesserung"
> (Ausdruck den man tatsächlich oft liest) nach bestimmten manuellen
> Anpassungen.

Das gibt es auf jeden Fall. Die Schwierigkeit ist nur, dass die nicht
bei allen in die gleiche Richtung geht.

> Ich könnte mir vorstellen, dass das an den konkreten Quellen des
> genutzten Korpus liegt
…
> Natürlich wäre es nicht so leicht an eine solche Datenmenge, möglichst
> groß und repräsentativ, dranzukommen. Ein Problem ist, dass private
> Nachrichten ... privat sind, und dienstliche im Zweifelsfall noch
> sensibler.
>
> Aber eine ganz ähnliche Datensammlung startet hier ja gerade. Darum
> interessiert mich, wie ihr darüber denkt. Und ob man das Skript und
> das ganze Projekt vielleicht gleich größer denken sollte.

Bevor du das größer denkst, musst du tiefer gehen. Denn die bisherigen
Korpora haben bereits verschiedene Quellen. Da sind auch Chatlogs drin,
und Quellcode, und E-Mails; alles mit Gewichtungen.

Du müsstest also erstmal verstehen, wie der aktuelle Korpus
zusammengesetzt ist, um ihn dann informiert verbessern zu können.

Um nicht falsch verstanden zu werden: Arbeit am Korpus ist wirklich eine
Stelle, an der noch viel zu machen wäre. Der Grund ist aber nicht, dass
wenig gemacht wurde, sondern dass das sehr viel Arbeit ist. 

Ein Einstieg könnte die ngramm-config meines Optimierers sein: die
beschreibt, wie der Korpus gerechnet wurde.

https://hg.sr.ht/~arnebab/evolve-keyboard-layout/browse/ngrams.config

Das Ergebnis sind die *-gramme.arne.txt Dateien.

Ich würde aber vorschlagen, erst ein Problem anzugehen (auf
Gedankenpausen prüfen) bevor wir das nächste Fass aufmachen. Sonst wird
am Ende nichts fertig.

Liebe Grüße,
Arne
-- 
Unpolitisch sein
heißt politisch sein,
ohne es zu merken.
draketo.de

Attachment: signature.asc
Description: PGP signature

_______________________________________________
Diskussion mailing list -- [email protected]
To unsubscribe send an email to [email protected]

Antwort per Email an