Moin an alle, Die Wikipedia-Liste habe ich mir angesehen. Es sind tatsächlich viele Namen, hochdeutsche Wörter, Abkürzungen usw. vorhanden. Es sind auch viele plattdeutsche Wörter enthalten, die zwar identisch sein sollen, aber sehr verschieden geschrieben worden sind.
Außerdem gibt es viele Konjugationen und auch Zusammensetzungen, womit wir wieder bei den "compounds" wären. Ich habe die Liste mal in EXCEL übernommen, weil man dort viel sortieren und bearbeiten kann. Dann habe ich folgende Einträge gelöscht: 1. doppelte Einträge das waren meistens Unterschiede in Gross- und Kleinbuchstaben 2. Einträge, die in der jetzigen dic-Datei von Heiko schon enthalten sind Das sind die, die nach Heikos Aussage (s.u.) also als "nicht falsch gewertet" werden. 3. Einträge mit "ausländischen" Buchstaben (wie z.B. é, è, Ø, å) die gibt es m. E. allesamt nicht in plattdeutsch 4. Alle Einträge mit nur einem Buchstaben 5. Alle Einträge mit nur zwei Buchstaben das waren Wörter wie "an", "im" usw. und damit schon vorhanden oder es waren Abkürzungen. Alles in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht. 6. Nach alphabetischer Sortierung alle Wörter, die sich zu dem davor stehenden Wort in angehängtem -n, -en oder -s unterscheiden. Das ist also jeweils der Plural von dem davor stehen Wort. Auch in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht. 7. Alle Einträge mit der Endung -ung(en). die gibt es m. E. auch nicht in plattdeutsch. Wieder in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht. 8. Alle Einträge, bei denen am Wortanfang eines der von Heiko definierten Präfixe in der aff.Datei stehen. Diese Wörter werden ja in der späteren Anwendung automatisch zur Prüfung verwendet. Wieder in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht. Ich bin mit den Präfixen noch nicht ganz fertig, aber jetzt hat die Liste ca. 30.000 Einträge (also schon 8.000 weniger) Als nächstes wären folgende Schritte möglich: a. Hochdeutsche und ausländische Ortsnamen markieren und löschen Eventuell für spätere Verwendung speichern. b. Plattdeutsche Ortsnamen markieren und verwenden. c. Abkürzungen markieren und löschen Eventuell für spätere Verwendung speichern. d. Konjugierte Wörter markieren und löschen e. Alle Einträge, die weniger als 10 mal vorkommen löschen Dann würden weitere ca. 16.000 Positionen erstmal entfallen und wir wären etwa bei den angestrebten 20.000 Wörtern Eventuell für spätere Verwendung speichern. f. und dann natürlich die Affixe dazu erarbeiten !!! Dies alles geht natürlich nur mit Hilfe der Hilfswilligen :-) Was ist Eure Ansicht dazu? Beste Grüße Jörn -- Liste abmelden mit E-Mail an: nds+unsubscr...@de.libreoffice.org Probleme? http://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/ Tipps zu Listenmails: http://wiki.documentfoundation.org/Netiquette/de Listenarchiv: http://listarchives.libreoffice.org/de/nds/ Alle E-Mails an diese Liste werden unlöschbar öffentlich archiviert