[Neo] Corpora

Robby Sat, 29 Jan 2011 04:54:25 -0800

Die Google Labs haben zusammen mit der Harvard University ein neues
Projekt ins Web gebracht. Sie haben aus den 15 Millionen von Google
eingescannten Bücher eine abfragbare Datenbank generiert. Google hat
dazu einen Books Ngram Viewer geschaffen mit dem man beispielsweise
abfragen kann wie häufig ein Wort, ein Begriff, ein n-gram in der
Literatur vorkommt. Graphisch über den gewählten Zeitraum dargestellt.


Grundlage sind 15 Millionen Bücher von 1500 bis 2011. Sie haben
jeweils für folgende Sprachen einen Corpus gebildet:

Deutsch - dieser Corpus umfasst 37 Milliarden Wörter
Französisch
Spanisch
Englisch
Britisches Englisch
Amerikanisches Englisch
Fiction Englisch
One Million Englisch
(Russisch, Hebräisch, Chinesisch)

Die Corpora sind für eigene Experimente downloadbar.

Projekt:                                    http://www.culturomics.org/
Books Ngram Viewer:                http://ngrams.googlelabs.com/
Infos über Corpora und Viewer:   http://ngrams.googlelabs.com/info
Corpora Downloadbereich:          http://ngrams.googlelabs.com/datasets

Anmerkung:
Mit dem Books Ngram Viewer kann man 12 Buchstaben, n-gramme oder
Wörter durch Komma getrennt gleichzeitig abfragen und vergleichen.

Robby

[Neo] Corpora

Antwort per Email an