Die Google Labs haben zusammen mit der Harvard University ein neues Projekt ins Web gebracht. Sie haben aus den 15 Millionen von Google eingescannten Bücher eine abfragbare Datenbank generiert. Google hat dazu einen Books Ngram Viewer geschaffen mit dem man beispielsweise abfragen kann wie häufig ein Wort, ein Begriff, ein n-gram in der Literatur vorkommt. Graphisch über den gewählten Zeitraum dargestellt.
Grundlage sind 15 Millionen Bücher von 1500 bis 2011. Sie haben jeweils für folgende Sprachen einen Corpus gebildet: Deutsch - dieser Corpus umfasst 37 Milliarden Wörter Französisch Spanisch Englisch Britisches Englisch Amerikanisches Englisch Fiction Englisch One Million Englisch (Russisch, Hebräisch, Chinesisch) Die Corpora sind für eigene Experimente downloadbar. Projekt: http://www.culturomics.org/ Books Ngram Viewer: http://ngrams.googlelabs.com/ Infos über Corpora und Viewer: http://ngrams.googlelabs.com/info Corpora Downloadbereich: http://ngrams.googlelabs.com/datasets Anmerkung: Mit dem Books Ngram Viewer kann man 12 Buchstaben, n-gramme oder Wörter durch Komma getrennt gleichzeitig abfragen und vergleichen. Robby