Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Karl
Florian Janßen writes: > Karl schrieb am 25.03.2011 um 11:07 Uhr: > > Was (vermutlich nicht nur) mich interessiert: > > Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so > > umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder > > selber den Textkorpus

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Karl
Michael Gattinger writes: > Fallen euch derzeit sonst noch Feature ein, die interessant wären? Hallo Michael, vielen Dank für die Arbeit an Deinem feinen Projekt zur Aufbereitung von Wikipediainhalten für die Verwendung in Korpussen. Da der Wikipedia-XML-Dump (nur pages und articles) bereits k

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Arne Babenhauserheide
On Thursday 21 April 2011 02:07:17 Michael Gattinger wrote: > Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen. > Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 ("Kommentar zur > Repräsentativität von Texten"; "Re: [Neo] Wikipedi

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Arne Babenhauserheide
On Thursday 21 April 2011 02:03:58 Michael Gattinger wrote: > Am 18.04.2011 00:34, schrieb Arne Babenhauserheide: > > Und ist es frei lizensiert? (hatte ich das schon gefragt?) > > nach welchen regeln sollte es mindestens lizensiert sein und was > passiert wenn wir es nicht machen? Das Programm un

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-20 Diskussionsfäden Michael Gattinger
"Re: [Neo] Wikipedia-Korpus selbstgemacht") geantwortet :-(

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-20 Diskussionsfäden Michael Gattinger
Am 18.04.2011 00:34, schrieb Arne Babenhauserheide: Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du aufgegeben h�ttest, nachdem ich hier so lange nichts von dir geh�rt habe. bitteschön Gibt es die Quellen schon im Netz? Und ist es frei lizensiert? (hatte ich das schon gefr

Re: [Neo] Wikipedia-Korpus selbstgemacht (???)

2011-04-18 Diskussionsfäden Arne Babenhauserheide
Hi Wolf-Heider, On Monday 18 April 2011 12:20:29 Wolf-Heider Rein wrote: > Dieter Zahn > German Key Words > the basic 2000-word vocabulary > (c) 1984 > > Randall L. Jones > Erwin Tschirner > A Frequency Dictionary of German > (core vocabulary for learners) > (c) 2006 > > Der Vorteil, diese Quellen

Re: [Neo] Wikipedia-Korpus selbstgemacht (???)

2011-04-18 Diskussionsfäden Wolf-Heider Rein
Zum Korpus für die Untersuchungen: Etliche Pädagogen und Wissenschaftler für Sprachunterricht haben untersucht, welche geschriebenen und gesprochenen Wörter am wichtigsten sind und am häufigsten gebraucht werden. Bei meinen Überlegungen für eine Einhand-Tastatur verwende ich die Ergebnisse von

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote: > Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also > sofern interesse besteht in 2 Wochen fertigstellen. Wow, das klingt klasse! Sowohl die Features als auch, dass ihr es bald fertig haben könnt! - Arne signature.asc D

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Hi Michael, On Sunday 17 April 2011 16:15:47 Michael Gattinger wrote: > Hallo, leider sehe ich die E-Mail gerade erst. > > Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine > Wikipedia-Source verarbeitet und habe sie fast fertiggestellt. Freut mich, dass du noch dran bist!

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Am 17.04.2011 22:23, schrieb Florian Janßen: Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr: Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: Ziel ist es, mehrere Korpora zu verwenden, um die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr d

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Entschuldigung, ich hatte das Thema nur kurz angerissen um erste Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer) besteht bin ich gerne dazu bereit näher ins Detail zu gehen: ***Gründe für das Programmieren*** Ich hatte den Ticket 250 eröffnet und darauf keine Antwort er

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Florian Janßen
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr: > Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: >> Ziel ist es, mehrere Korpora zu verwenden, um >> die dadurch unterschiedlichen Ergebnisse vergleichen zu können. > > In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkor

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: > Ziel ist es, mehrere Korpora zu verwenden, um > die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit aufzunehmen. Es ist nur wichtig, die Nachteiles

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Pascal Hauck pascalhauck.de> writes: > Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören > (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen > enzyklopädischen Korpus kritisch. > Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger: > Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig macht. Dennoch wundere ich mich darüber, dass so leichtfertig und unhinterfragt eine Enzyklop

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Hallo, leider sehe ich die E-Mail gerade erst. Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine Wikipedia-Source verarbeitet und habe sie fast fertiggestellt. Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen. Ich muss also - das HTML entfernen - Enti

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen gmx.de> writes: > Weiß jemand ob es schon Tools > gibt um aus dem Wikitext normalen Text zu erzeugen? Nachtrag: Im Internet fand ich wenige Tools zum Entfernen von MediaWiki-Markup. Wie sie angewendet werden, das übersteigt meine Kenntnisse. http://toolserver.org/~magnus/wiki2xml

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen writes: > Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools > gibt um aus dem Wikitext normalen Text zu erzeugen? >Karl schrieb am 16.04.2011 um 18:17 Uhr: >> In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und >> genauer angesehen. >> Den so sauber gepu

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-27 Diskussionsfäden Martin Roppelt
Ich grüße euch! Florian Janßen schrieb: > Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr: > > Florian Janßen schrieb: > >> Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht > >> so häufig vorhanden, wie sie sein müssten, da recht oft die > >> Ersatzzeichen benutzt wurden. Mit E

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-27 Diskussionsfäden Florian Janßen
Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr: > Florian Janßen schrieb: >> Karl schrieb am 25.03.2011 um 11:07 Uhr: >>> Florian Janßen writes: >>> >>> Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? >> >> Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine >> Da

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-26 Diskussionsfäden Martin Roppelt
Hallöle! Florian Janßen schrieb: > Karl schrieb am 25.03.2011 um 11:07 Uhr: > > Florian Janßen writes: Ist es Dir möglich, mir eine der Textdateien > > zukommen zu lassen? > > Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine > Datei je Artikel und dir ein paar schicken. Für mi

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Karl
Florian Janßen writes: > Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in > meinem Skript: > Ich habe aus „Zufallswort “ nur die Bigramme > »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen > »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt. > > Al

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Karl schrieb am 25.03.2011 um 11:07 Uhr: > Florian Janßen writes: > >> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die >> N-Gramme sind auch fast fertig berechnet. > > Du hast meine Hochachtung für die wunderbare Leistung! > Ist es Dir möglich, mir eine der Textdateien zuko

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek
Hallo Florian, Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr: Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie auspackt. Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine schlechtere Komprimierung) getippt! Man könnte das Entpacken aber vermeiden, wenn m

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr: > Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: >> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei >> (gut 8GB) vor > und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es > sogar ›nur‹ noch  2.1 GB (Kompr

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek
Hallo allerseits, Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. B

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Karl
Florian Janßen writes: > Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die > N-Gramme sind auch fast fertig berechnet. Du hast meine Hochachtung für die wunderbare Leistung! Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Dessen Inhalt möchte ich mir genauer

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Hallo, Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die N-Gramme sind auch fast fertig berechnet. Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken. Gruß Florian

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Karl schrieb am 24.03.2011 um 14:56 Uhr: > Florian Janßen writes: > >> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei >> (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten >> Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen >> eigene

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Karl
Florian Janßen writes: > die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei > (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten > Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen > eigene Datei. Puh, das wird viel Arbeit! Werden so vie

[Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Hallo, die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon T