Ich bin baff und werde in den kommenden Tagen bestimmt noch öfter das Tool einschalten. Gratulation und Dankeschön dafür, Bjoern! Besten Gruß Ziko
Am 20. Januar 2010 02:41 schrieb Bjoern Hoehrmann <[email protected]>: > * Christian Thiele wrote: >>ja, sehr spannend. Da ich mich aber recht viel mit Biografien beschäftige, >>vermute ich da irgendwelche anderen Effekte - Biografien ohne eine >>Mann/Frau-Kategorie kommen doch zu selten vor. Dein Script zeigt auch >>insgesamt 1.063.624 Artikel an, obwohl die Wikipedia zu der Zeit, als du >>die Zugriffe erfasst hast, noch gar keine Million Artikel hatte. > > Ich bin bei der Erhebung auf einige Datenprobleme gestossen, z.B. gibt > es in der `page` Tabelle wohl falsche Titel mit Leerzeichen statt Unter- > strichen, und diverse Kreise im Kategoriesystem die inzwischen behoben > sein sollten (ausser im User_*-Bereich). Ich hab mir sagen lassen, hier > werden von MediaWiki Artikel gezählt die keine Weiterleitung sind und > mehr als 0 Byte gross sind. Da praktisch keine 0 Byte grossen Artikel im > Datensatz existieren gehe ich davon aus, da hat es ein Problem mit den > Weiterleitungen gegeben, z.B. dass die Weiterleitungen die zusätzlich > als Abkürzung kategorisiert sind falsch gezählt wurden. > > Okay, ich bin grad nochmal über dewiki-20091223-page.sql rüber, wenn man > die Einträge wo page_is_redirect gesetzt ist und die wo page_namespace > ungleich Null ist ignoriert bleiben 1 012 813 Einträge. Wenn man auch > noch die mit page_len == 0 ignoriert bleibt einer weniger. (Für die Aus- > wertung habe ich einfach > > http://lists.w3.org/Archives/Public/www-archive/2010Jan/0007.html > > benutzt). In der categorylinks Tabelle steht ja auch vor allem Müll > drin (jedesmal wenn man einen Tippfehler bei den Kategorien hat wird > dort ein falscher Eintrag erzeugt und nur unregelmässig entfernt), es > mag also gerne irgendwo ein kleiner unbedeutender Wurm drin sein (und > sei es in der zählweise von MediaWiki :-) Wo der ist weiss ich aber > leider nicht, für die Darstellung in dem Tool sollte es jedoch keinen > Unterschied machen, so keine Spezialkategorien betroffen sind. > >>> In jedem Fall kann es recht kurzweilig sein da durch die Ge- >>> gend zu klicken, in dem Sinne, viel Spass. >> >>Yep! Danke dafür. > > Danke für das Feedback, > -- > Björn Höhrmann · mailto:[email protected] · http://bjoern.hoehrmann.de > Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de > 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/ > > _______________________________________________ > WikiDE-l mailing list > [email protected] > https://lists.wikimedia.org/mailman/listinfo/wikide-l > -- Ziko van Dijk NL-Silvolde _______________________________________________ WikiDE-l mailing list [email protected] https://lists.wikimedia.org/mailman/listinfo/wikide-l
