Re: [Neo] Wikipedia-Korpus selbstgemacht

Florian Janßen Thu, 24 Mar 2011 07:38:20 -0700

Karl schrieb am 24.03.2011 um 14:56 Uhr:
> Florian Janßen writes:
> 
>> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
>> (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
>> Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
>> eigene Datei.
> 
> Puh, das wird viel Arbeit!
> Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem
> wesentlich mehr als 8 GB erfordern?


Es ist wesentlich besser als mit einer 8GB-Datei zu hantieren. Und
soviel mehr Platz nehmen sie nicht weg.

Vielleicht bündel ich die später zu 1000er-Packs oder so.

>> Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
>> gibt um aus dem Wikitext normalen Text zu erzeugen?
> 
> Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von
> Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt:
> Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir 
> einen
> benötigten, der alle Bilder entfernt.

Das hatte ich auch überlegt, habe mich dann aber für ein paar Zeilen in
der Powershell entschieden. Die paar als Stichproben gelesenen Artikel
gelesenen Artikel waren damit vom Wikisyntax befreit. Ich werde langsam
zum Shell-Junkie :)

Jetzt muss ich nur noch die paar Meta-Seiten raushauen und dann müsste
der Grundkorpus fertig sein.

signature.asc
Description: OpenPGP digital signature

Re: [Neo] Wikipedia-Korpus selbstgemacht

Reply via email to