Hi Lars, danke erstmal fürs Antworten.
On Jue 04 Feb 2010, Lars Francke wrote: > Hallo, > > > 1.: OSM nach verwendeten Tagging-Kombinationen durchsuchen > > dieser Teil ist ziemlich rechen-/zeit-/speicheraufwendig. In diesem > Falle weiß ich ausnahmsweise wovon ich rede: osmdoc.com hatte die > Funktion mal und die wird auch demnächst wiederkommen (hosting > fehlt...). Ich rede hier aber nicht von wenigen Zeilen, die einfach in > einer SQLite DB gespeichert werden sondern von hunderten von > Millionen/Milliarden (je nachdem wie detailliert man das moechte) > verschiedener Kombinationen und Zeilen. Wow, osmdoc.com kannte ich noch gar nicht. Respekt! Die temporären Daten werden groß sein bei der stochastischen Analyse, aber irgendwo definiert man eben eine Grenze der Signifikanz und orientiert sich schließlich beim Endprodukt der Tagging-Datenbank zum Verteilen an den häufigsten paar tausend Tag-Kombinationen oder so. Also zum Schluß hat man fast alle Information hinausgeworfen. Von der Methodik her (ich bin jetzt kein Experte in Data-Mining) würde ich nach Korrelationen suchen, also zunächst einmal semantische Kombinationen identifizieren. Ich denke da praktisch an einen XML-Analysator für planet.osm. Als "gleichzeitig" gilt das Auftreten eines Ereignisses in derselben Node, Relation, Way oder Changeset. Sowohl Schlüsselname als auch Schlüsselwert sollten gleichberechtigt unabhängig analysiert werden, am besten sollten sogar syntaktische Trennzeichen wie ":", "|" oder ";" als solche interpretiert werden. Auch das Ereignis des "XML parent" (Node, Relation, ...) sollte ausgewertet werden (um zu erkennen, welche Tags z.B. nur in Ways auftreten (sollten)). Es werden Einzelhäufigkeiten und Paarhäufigkeiten in der Auswertungsdatenbank gespeichert, das werden zig Gigabyte werden. Alle Ereignisse werden als Integerwerte codiert. Ist planet.osm fertiggeparst, geht es an die Ermittlung von Korrelationen (da müßte es doch auch einen Trick on-the-fly geben, aber evt. schmeißt man ja zu früh Ergebnisse weg). Dann geht es wohl los mit dem Ignorieren, da (n-1)^2/2 Korrelationskoeffizienten[1] ermittelt werden müßten. Ich nehme an, da nimmt man die häufigsten 2 Millionen Wertepaare oder so. 2 Wochen Rechenzeit? Keine Ahnung. Irgendwo als ge-"nice"-ter Rechenjob auf einem sich langweilenden Server. Von denen untersucht wiederum bei den maximal Korrellierenden, ob es weitere hochkorrelierte Beziehungen gibt, also Suche nach Mehrfach-Koinzidenz (maximal 4 nehme ich an). Dann ist man schon fertig mit dem "Extrakt", und bricht nach 70 tausend oder so in der Rangfolge ab. Nun hat man (so hoffe ich) bedeutungsbehaftete Tag-Kombinationen isoliert, die die Mapper miteinander in Beziehung setzen können. Dazu bietet man ihnen auf einer Webseite ein Interface zu diesen Daten an. Eine natürliche Kategorisierung erfolgt glaube ich schon durch die Begrenztheit der Schlüsselnamen (oder irre ich mich da?). Die Benutzer haben nun die Möglichkeit, Kombinationen als mehr oder weniger "ähnlich" zu definieren. Vielleicht kann man das mit einem Preisausschreiben kombinieren (12 Nexus-One, Nokia Nxxx oder Garmins, oder Charity für Haiti, was weiß ich). Diese paar tausend Notationen mit ihrer Ähnlichkeitsbeziehung und möglichen Rendersymbolen werden dann in eine kleine Datenbank von 2MByte oder so gepackt. Je näher sich Tag-Kombinationen sind, desto eher hat man Kandidaten für (haha Bots, nein.) zur Konsolidierung und neuen Brennstoff für noch längere Threads für den verbalen Kampfsport, oder mit anderen Worten eine Diskussionsbasis, und es werden nicht nur isolierte Einzel-Tags betrachtet wie bei Tagwatch, sondern sozusagen "Objekte". Man hat sozusagen da draußen nicht nur uns Daten-Typen, die mappen (kleines Wortspielchen), sondern Tag-Datentypen, die mehr oder weniger als kongruent gemappt werden. Man muß da dann nicht unbedingt die Sense bei den redundanten Notationen ansetzen, sondern gerade weil man ja nun weiß, daß bestimmte Notationen sehr dicht beieinander liegen, können sie problemlos koexistieren. Im Editor werden diese Tags dann aus der 2 MByte-Tag-Datenbank eingebunden. Wegen der stetigen assoziativen Beziehung zu den Bedeutungen werden einem dann Symbole mit Beschreibungen optisch auch entsprechend gruppiert zur Selektion angeboten (am besten nicht in einer eindimensionalen Menüleiste, sondern auf einer zweidimensionalen Verteilung von Elementen), am besten optional noch mit Erläuterungstext über die Alternativen, so wie jetzt auf dem Wiki. > > 2.: Beginnend bei den häufigsten Kombinationen, bedeutungsähnliche oder > > gar redundante Kombinationen zuordnen ("1.0" für identisch, "0.8" für > > "ziemlich ähnlich", "0.0" (default) für "total unterschiedlich). > > Hast Du dafür ein Beispiel? Also das Widget das ich mir vorstelle, ist eine Wolke von Begriffen oder Symbolen, bei denen Du das, was Dich interessiert, ins Zentrum klickst. Da gabs doch diese assoziative Suchmaschinen, die immer mehr so ein Gimmick waren... http://en.eyeplorer.com/show/me/OpenStreetmap Kaboo.com? Die definieren also eine "Metrik" zwischen Begriffen. Das geht am besten Kontinuierlich. Ich glaube, das ist nicht so akademisch abgehoben wie es klingt, sondern ziemlich praktisch. > > 3.: Auf dieser Basis Diskussionen zur Vereinfachung und Standardisierung > > des Taggings führen > > Aufgrund der Erfahrungen, die ich die letzten Monate/Jahre mit OSM > gesammelt habe moechte ich vermuten, dass das nichts wird. Du bist > nicht der erste - und bitte sieh das nicht negativ - der als Neuling > kommt und Ideen hat das Tagging zu standardisieren oder zu verbessern. > Bisher sind alle Versuche gescheitert und ich bin mir ziemlich sicher, > dass zukünftige Versuche auch scheitern werden. Jeder darf taggen wie > er moechte und das ist auch gut so und es wird vermutlich _nie_ einen > Konsens zu den ewig gleichen Themen geben (path/footway, smoothnes, > openseamap/freietonne, cycleway, left/right, ...). Such Dir aus was > Dir am Besten gefällt und tagge danach. Meine Motivation ist eher: aha, die haben ein Problem, mal nachdenken... Also das "Wickie"-Syndrom. Manchmal ist das als Neuer, Außenstehender einfacher. > Ich hoffe Du hast auch trotz des Taggingchaos weiter viel Spaß bei OSM! Chaos stört mich persönlich nur bei essentiellen Dingen, wie Essen, Bildung, öffentlicher Sicherheit, emotionaler Integrität und menschliche Relationen. Der Rest - watt solls. :-) Bye, Jochen __ [1] Das ist nicht der klassische Korrelations-Koeffizient, sondern ein Koeffizient, der die Signifikanz der stochastischen Gleichzeitigkeit zweier Zustände bezeichnet. Sowas gibt's sicher, müßte ich suchen. _______________________________________________ Talk-de mailing list Talk-de@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-de