Ein Student hat jetzt gemeinsam einem weiteren Forscher Daten von fast 70.000 Usern der Dating-Website OkCupid veröffentlicht. Darunter befinden sich ihre sexuellen Vorlieben, ihre sexuelle Orientierung, ihre Usernamen und weitere Informationen. Kritiker meinen nun, dass man anhand dieser Daten die Nutzer auch konkret identifizieren kann.
Damit stellt sich nun auch die Frage, welche Daten Forscher massenhaft sammeln, weiterverarbeiten und bei Bedarf auch verbreiten dürfen.
Videos by VICE
Die Informationen, die Nutzer bei OkCupid angeben, sind teilweise öffentlich: Wenn man den Nutzernamen einer Person bei Google eingibt, kann man auf das entsprechende OkCupid-Profil kommen und die angegebenen Informationen einsehen, allerdings nicht alle. Um vollen Zugang zu erhalten, muss man sich bei der Kontaktbörse einloggen. Solche halb-öffentlichen Informationen, die User bei OkCupid und Facebook angegeben haben, können ziemlich heikel sein, wenn sie in einem anderen Kontext genutzt werden—gerade auch wenn man anhand der Daten einzelne Personen identifizieren kann.
„OkCupid ist eine attraktive Website, um sich Daten zu beschaffen”, so Emil O. W. Kirkegaard und Julius D. Bjerrekær in ihrem Paper „The OKCupid dataset: A very large public dataset of dating site users”. Kirkegaard ist laut eigenen Angaben Masterstudent der Universität Aarhus in Dänemark, Bjerrekær kommt von der Universität in Aalborg, ebenfalls in Dänemark.
Zwischen November 2014 und März 2015 sammelten die beiden Forscher die Daten mithilfe eines „Scrapers”—einem Programm, das bestimmte Teile einer Website extrahiert und speichert. Dabei wurden zufällig Profile von Usern ausgewählt, die eine Vielzahl der Multiple-Choice-Fragen von OkCupid beantwortet hatten. Darin wird zum Beispiel gefragt, ob man jemals Drogen genommen hat, ob man es mag, beim Sex gefesselt zu werden, oder was die User am romantischsten finden.
„OkCupid ist eine attraktive Website für die Beschaffung von Daten.”
Die beiden Dänen haben Nutzername, Alter, Geschlecht, Ort, Angaben zu Religion und Sternzeichen, Anzahl der Fotos und weitere Nutzerinformationen gesammelt. Außerdem haben sie die Antworten zu den 2.600 beliebtesten Fragen auf der Website gesammelt. In ihrem Paper haben Kirkegaard und Bjerrekær versucht herauszufinden, ob sich aus den Antworten der User ihre kognitiven Fähigkeiten ablesen lassen können. Auf der Website Open Science Framework (https://osf.io/p9ixw/) wird als dritter Autor außerdem Oliver Nordbjerg angegeben.
All das sind Informationen, die OkCupid-Usern zugänglich sind, sobald sie auf der Website eingeloggt sind. Man könnte diese Daten also als „öffentlich” bezeichnen, da dabei keine Privatnachrichten oder ähnliches untersucht wurden.
„Wir hoffen, dass andere Forscher dieses Datenset für ihre eigenen Zwecke nutzen”, heißt es in dem Paper.
Viele Wissenschaftler sind allerdings weniger erfreut, dass diese Daten veröffentlicht wurden.
Scott B. Weingart, Spezialist für Digital Humanities an der Carnegie Mellon University (CMU), erklärte in einem Tweet, dass er mit 90-prozentiger Treffsicherheit anhand persönlicher Angaben und Angaben zu sexuellen Vorlieben über 10.000 OkCupid-Usern ihre echten Namen zuordnen könne.
„Die Daten sind vielleicht ,öffentlich’ (auch wenn man sich dafür einloggen und den Nutzungsbedingungen zustimmen muss), aber damit ist noch lange niemand von einer moralischen Verantwortung freigesprochen”, so Rasmus Munksgaard, ein Forscher, der selbst Darknet-Marktplätze mithilfe von Scraping durchforstet hat, gegenüber Motherboard in einer Direktnachricht über Twitter.
„Mit den Daten können sehr sensible Informationen sichtbar gemacht und Personen konkret identifiziert und zugeordnet werden und die Nutzer können auch nichts dagegen machen”, so Munksgaard weiter.
Was Kirkegaard und Bjerrekær gemacht haben, war nicht illegal, zeigt aber vor allem, dass die Ethikkommissionen in der Forschung es bisher auch noch nicht geschafft haben, sich mit dem Thema Scraping von Onlinedaten auseinanderzusetzen.
„Etwas so altes und großes, wie die Welt der Universitäten und der Forschung, entwickelt sich langsam und kann nur schwer gezielt seine Richtung ändern”, so Scott Weingart in einer E-Mail gegenüber Motherboard. „Wir wollen nichts überstürzen, sondern zuerst die Grundlagen und die ethischen Fragen verstehen. Hier hat sich die Welt schneller entwickelt als das Universitätssystem, und wir versuchen da jetzt krampfhaft aufzuholen.”
Laut Aussage von OkCupid haben die beiden Dänen mit ihrer Forschung gegen die Nutzungsbedingungen der Website verstoßen.
Andere Studien, die auch mit Daten aus öffentlich zugänglichen Quellen gearbeitet haben, versuchten durch spezielle Maßnahmen die Privatsphäre der User zu schützen. In einem Paper von 2008, in dem von Facebook gesammelte Informationen veröffentlicht wurden, haben die Autoren alle Namen und zugewiesenen Identifikationsnummern entfernt. Wollen andere Forscher diese Daten nutzen, müssen sie zudem konkreten Nutzungsbedingungen zustimmen.
„Mit den Daten können sehr sensible Informationen sichtbar gemacht und Personen konkret identifiziert und zugeordnet werden und die Nutzer können auch nichts dagegen machen.”
Die Daten von OkCupid wurden jedoch anscheinend in keiner Weise anonymisiert.
In einer E-Mail an Motherboard erklärt Kirkegaard: „Ich würde gern mit Interviews warten, bis sich die ersten Wellen gelegt haben. Ich will das Feuer nicht noch weiter anfachen, gerade auch nicht bei denen, die jetzt laut nach sozialer Gerechtigkeit rufen.”