Florian Janßen writes:
> Karl schrieb am 25.03.2011 um 11:07 Uhr:
> > Was (vermutlich nicht nur) mich interessiert:
> > Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so
> > umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder
> > selber den Textkorpus
Michael Gattinger writes:
> Fallen euch derzeit sonst noch Feature ein, die interessant wären?
Hallo Michael,
vielen Dank für die Arbeit an Deinem feinen Projekt zur Aufbereitung von
Wikipediainhalten für die Verwendung in Korpussen.
Da der Wikipedia-XML-Dump (nur pages und articles) bereits k
On Thursday 21 April 2011 02:07:17 Michael Gattinger wrote:
> Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen.
> Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 ("Kommentar zur
> Repräsentativität von Texten"; "Re: [Neo] Wikipedi
On Thursday 21 April 2011 02:03:58 Michael Gattinger wrote:
> Am 18.04.2011 00:34, schrieb Arne Babenhauserheide:
> > Und ist es frei lizensiert? (hatte ich das schon gefragt?)
>
> nach welchen regeln sollte es mindestens lizensiert sein und was
> passiert wenn wir es nicht machen?
Das Programm un
"Re: [Neo] Wikipedia-Korpus
selbstgemacht") geantwortet :-(
Am 18.04.2011 00:34, schrieb Arne Babenhauserheide:
Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du
aufgegeben
h�ttest, nachdem ich hier so lange nichts von dir geh�rt habe.
bitteschön
Gibt es die Quellen schon im Netz?
Und ist es frei lizensiert? (hatte ich das schon gefr
Hi Wolf-Heider,
On Monday 18 April 2011 12:20:29 Wolf-Heider Rein wrote:
> Dieter Zahn
> German Key Words
> the basic 2000-word vocabulary
> (c) 1984
>
> Randall L. Jones
> Erwin Tschirner
> A Frequency Dictionary of German
> (core vocabulary for learners)
> (c) 2006
>
> Der Vorteil, diese Quellen
Zum Korpus für die Untersuchungen:
Etliche Pädagogen und Wissenschaftler für Sprachunterricht haben untersucht,
welche geschriebenen und gesprochenen Wörter am wichtigsten sind und am
häufigsten gebraucht werden. Bei meinen Überlegungen für eine Einhand-Tastatur
verwende ich die Ergebnisse von
On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote:
> Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also
> sofern interesse besteht in 2 Wochen fertigstellen.
Wow, das klingt klasse!
Sowohl die Features als auch, dass ihr es bald fertig haben könnt!
- Arne
signature.asc
D
Hi Michael,
On Sunday 17 April 2011 16:15:47 Michael Gattinger wrote:
> Hallo, leider sehe ich die E-Mail gerade erst.
>
> Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine
> Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.
Freut mich, dass du noch dran bist!
Am 17.04.2011 22:23, schrieb Florian Janßen:
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
In diesem Fall bin ich sehr d
Entschuldigung, ich hatte das Thema nur kurz angerissen um erste
Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer)
besteht bin ich gerne dazu bereit näher ins Detail zu gehen:
***Gründe für das Programmieren***
Ich hatte den Ticket 250 eröffnet und darauf keine Antwort er
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:
> Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
>> Ziel ist es, mehrere Korpora zu verwenden, um
>> die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
>
> In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkor
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
> Ziel ist es, mehrere Korpora zu verwenden, um
> die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit
aufzunehmen. Es ist nur wichtig, die Nachteiles
Pascal Hauck pascalhauck.de> writes:
> Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören
> (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen
> enzyklopädischen Korpus kritisch.
> Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:
> Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben
Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und
unhinterfragt eine Enzyklop
Hallo, leider sehe ich die E-Mail gerade erst.
Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine
Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.
Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen.
Ich muss also
- das HTML entfernen
- Enti
Florian Janßen gmx.de> writes:
> Weiß jemand ob es schon Tools
> gibt um aus dem Wikitext normalen Text zu erzeugen?
Nachtrag:
Im Internet fand ich wenige Tools zum Entfernen von MediaWiki-Markup. Wie sie
angewendet werden, das übersteigt meine Kenntnisse.
http://toolserver.org/~magnus/wiki2xml
Florian Janßen writes:
> Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
> gibt um aus dem Wikitext normalen Text zu erzeugen?
>Karl schrieb am 16.04.2011 um 18:17 Uhr:
>> In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und
>> genauer angesehen.
>> Den so sauber gepu
Ich grüße euch!
Florian Janßen schrieb:
> Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr:
> > Florian Janßen schrieb:
> >> Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht
> >> so häufig vorhanden, wie sie sein müssten, da recht oft die
> >> Ersatzzeichen benutzt wurden.
Mit E
Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr:
> Florian Janßen schrieb:
>> Karl schrieb am 25.03.2011 um 11:07 Uhr:
>>> Florian Janßen writes:
>>>
>>> Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen?
>>
>> Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine
>> Da
Hallöle!
Florian Janßen schrieb:
> Karl schrieb am 25.03.2011 um 11:07 Uhr:
> > Florian Janßen writes: Ist es Dir möglich, mir eine der Textdateien
> > zukommen zu lassen?
>
> Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine
> Datei je Artikel und dir ein paar schicken.
Für mi
Florian Janßen writes:
> Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in
> meinem Skript:
> Ich habe aus „Zufallswort “ nur die Bigramme
> »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen
> »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.
>
> Al
Karl schrieb am 25.03.2011 um 11:07 Uhr:
> Florian Janßen writes:
>
>> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
>> N-Gramme sind auch fast fertig berechnet.
>
> Du hast meine Hochachtung für die wunderbare Leistung!
> Ist es Dir möglich, mir eine der Textdateien zuko
Hallo Florian,
Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr:
Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie
auspackt.
Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine
schlechtere Komprimierung) getippt!
Man könnte das Entpacken aber vermeiden, wenn m
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr:
> Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
>> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
>> (gut 8GB) vor
> und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es
> sogar ›nur‹ noch 2.1 GB (Kompr
Hallo allerseits,
Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.
B
Florian Janßen writes:
> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
> N-Gramme sind auch fast fertig berechnet.
Du hast meine Hochachtung für die wunderbare Leistung!
Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Dessen Inhalt
möchte ich mir genauer
Hallo,
Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
N-Gramme sind auch fast fertig berechnet.
Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.
Gruß Florian
Karl schrieb am 24.03.2011 um 14:56 Uhr:
> Florian Janßen writes:
>
>> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
>> (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
>> Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
>> eigene
Florian Janßen writes:
> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
> (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
> Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
> eigene Datei.
Puh, das wird viel Arbeit!
Werden so vie
Hallo,
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.
Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon T
32 matches
Mail list logo