Eine gute Nachricht zur Analyse der plattdeutschen Wikipedia. Da gibt es ein Skript WikiExtractor.py, mit dem man aus dem Datenbankdump den Plaintext rausziehen kann. Das habe ich jetzt vorliegen. Den werde ich dann so wie ich das bei KDE gemacht habe, wortweise zerlegen und durchzählen. Eine Rohversion davon habe ich schon. Das sollte dann auch in einigen Tagen vorliegen.
Da bleibt dann aber eine Menge Handarbeit über, um nachzuschauen, was in die Wortliste reinsoll, und was nur Eigennamen oder gar fremdsprachliche Wörter sind, die nicht aufgenommen werden sollen. Mal schauen, das kann ich noch nicht so recht absehen. Hartlich Gröten, Heiko -- Liste abmelden mit E-Mail an: nds+unsubscr...@de.libreoffice.org Probleme? http://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/ Tipps zu Listenmails: http://wiki.documentfoundation.org/Netiquette/de Listenarchiv: http://listarchives.libreoffice.org/de/nds/ Alle E-Mails an diese Liste werden unlöschbar öffentlich archiviert