On Tuesday 19 April 2011 17:54:13 Dennis Heidsiek wrote:
> Von daher wäre es besser, auch hier auf freie Quellen (wie die
> Wikipedia) zu setzen. Mit identi.ca gibt es einen populären freien
> Microblogging-Dienst, bei dem alle Tweets unter CC-BY (erfordert nur die
> Quellennennung) stehen. Die API ist sogar Twitter-kompatibel, wäre für
> unsere Zwecke (große Datenmengen) aber zu ineffektiv. Leider gibt es
> keinen kompletten Datenbank-Dump wie bei der Wikipedia zum
> herunterladen, ich habe aber mal irgendwo gelesen, dass sie den
> bereitstellen würden, wenn es daran ein (gut begründetes) Interesse
> gäbe. Da auch die Geoinformationen des Browsers ausgelesen werden,
> könnte man vielleicht sinnvoll vorfiltern, indem man nur alle Tweets aus
> Deutschland benutzt … wobei das Putzen von Tweets eh’ eine
> Sisyphosaufgabe wäre. Wenn man alles URLs, Hashtags, englische Wörter
> etc. herausfiltern würde, bliebe bei nur 140 Zeilen wohl kaum etwas übrig :/

Obwohl natürlich die Frage ist, ob wir die überhaupt so stark filtern müssen,
wenn wir schon sicherstellen können, dass sie aus Deutschland sind. Hash-tags
und urls müssen raus. Rest ist halt das, was Deutsche Tipper schreiben.

Da Status.Net (das hinter identi.ca läuft) ein Teil von GNU Social ist, habe
ich wenig Zweifel daran, dass die uns die Daten für Neo (freie
Tastaturbelegung) geben würden.

Liebe Grüße,
Arne

Attachment: signature.asc
Description: This is a digitally signed message part.

Antwort per Email an