Hej!

> 1. In unserer Forschungsgruppe sammeln wir weltweit Daten über
> Schwangerschaften, um bei bestimmten Auffälligkeiten zu Beginn der
> Schwangerschaft das Risiko einer lebensbedrohlichen Krankheit am Ende
> einzuschätzen. Uns schicken nur wenige Ärzte Informationen über den
> Verlauf ihrer Patientinnen.

Ich bezweifle mal, dass die mehr schicken würden, nur weil sie die Daten
statt euch noch x anderen anonymen Datensammlern geben können.

> Für die Qualität der Daten wäre es besser,
> wenn wir nicht das Zentrum bilden würden, die Krankenakten über diverse
> Server verteilt wären und jeder Forscher nur die nutzt, denen er traut.

Sowas nennt sich (verteilte) statistische Datenbank. In puncto Privacy
verlockend, gegen statistische Tracker-Attacken unsicher gestaltet zu
werden (zu viel Daten drin, weil man meint, da käme eh keiner ran).

Auch sehe ich keinen Zusammenhang zum ersten Problem.

> 2. Es gibt den Versuch einer verteilten Websuchmaschine. Der Index ist
> allerdings miserabel, die Suche langsam, und die Crawler arbeiten
> unkooperativ. Gegen Spam in den Suchergebnissen gibt es noch kein Konzept.

Wer unkooperativ ist, der wird sich wohl auf technischem Wege nicht zu
etwas anderem zwingen lassen. In erster Linie ist das ein
organisatorisch-willentliches Problem.

Was bringen verteilte Websuchmaschinen eigentlich? Viele verschiedene
Suchmaschinen ermöglichen es, sich ein breites Bild bzgl. bestimmer
Informationen zu machen. Wenn die verteilten Websuchmaschinen sich aber
wieder abstimmen, wer für welche Begriffe oder Teile des Netzes
zuständig ist, dann bin ich für einen bestimmten Term/Netzbereich auf
eine Suchmaschine festgelegt. Was gewinne ich damit?

> 3. Singleportale kennt jeder. Einige haben Matchingalgorithmen, die
> eventuell passende Partner vorschlagen. Diese Algorithmen sind nichts
> Besonderes und frei verfügbar. Die Anbieter schalten im Verdrängungskampf
> wie bescheuert Werbung, um ihre Datenbank zu füllen. Gibt es eine
> Möglichkeit, verschiedene Datenbanken zu verbinden, mit beliebigen
> Algorithmen darauf zuzugreifen und mit unterschiedlichen Oberflächen
> darauf zuzugreifen? Wie könnte das in der Praxis funktionieren?

Welchen Anreiz hätten denn die Portale, dir das zu ermöglichen :P

Die wollen doch ihr Geld mit den Daten verdienen. Also wieder eine
organisatorisch-willentliche Frage.

> 4. Das Fraunhofer Institut forscht gerade an einer intelligenten
> Echtzeit-Mitfahrzentrale. Einer fährt von Amsterdam nach Berlin und nimmt
> mal eben jemanden von Hannover nach Magdeburg mit. Die Zuordnung geschieht
> automatisch, ebenso die Bezahlung. Wer unzuverlässig ist, bekommt ein
> schlechtes Ranking. In der Praxis setzt man sich ins Auto und gibt in sein
> Handy ein, wo man hinfährt bzw. man stellt sich an die Straße und sagt
> der Zentrale, wo man hin will. Auch hier ist wieder das Problem, dass die
> Datenbank zentral aufgebaut ist. Es wird konkurrierende Systeme geben, die
> jeweils nur ein geringeres Angebot an Fahrten verwalten und damit auf dem
> Lande kaum funktionieren. Oder einen Giganten, der das deutsche
> Verkehrssystem beherrscht. Auch hier die Frage: Ließe sich diese Datenbank
> verteilen?
> 
> Gibt es einen Ansatz für dieses Problem?

_Technisch_ sind verteilte Datenbanken kein sonderliches Problem. Auch
hier fragt sich allerdings, ob die Anbieter das _wollen_. Jeder Anbieter
_muss_ schließlich Geld verdienen, allein schon um die Server zu
betreiben. Üblicherweise verdient der kein Geld mehr, wenn seine Seite
statt direkt vom regionalen Kunden besucht zu werden nur noch mit einem
woanders laufenden Bot redet.

Zur Technik _verteilter_ Datenbanken:

Viele DBMS bieten es von Haus aus an, über mehrere Server verteilt zu
werden (wenngleich dann nur indirekt festlegbar ist, welche Daten wo
gespeichert werden). Knackpunkt: technisch sind die dann eng miteinander
verzahnt, alle Akteure müssen die selbe (außerhalb großer Unternehmen
selten anzutreffende) Technik einsetzen => für deinen Zweck zu unflexibel.

In deinen Fällen wäre wohl ein Metasuchtool, dass x Datenbanken (über
deren Websites) direkt anfragt und dann die Ergebnisse aggregiert, das
einfachste.


Beste Grüße
  Fabian

_______________________________________________
Lug-dd maillist  -  Lug-dd@mailman.schlittermann.de
https://ssl.schlittermann.de/mailman/listinfo/lug-dd

Antwort per Email an