Big Data und die Versuchskaninchen

Großkonzerne gehen achtlos mit unseren Daten um. Wie sieht es damit in der Forschung aus?

Text: Werner Sturmberger | aus HEUREKA /18 vom 30.05.2018

Es gibt das Versprechen, mit Big Data alles besser verstehen zu können”, sagt die Medienforscherin Nele Heise. “Weil man damit alles irgendwie in Zusammenhang miteinander setzen kann. Doch wird dabei oft vergessen, dass man auch die richtigen Fragen stellen muss.” Sie verweist auf den Stellenwert von Theoriearbeit angesichts eines oft recht kruden Empirismus. Dass gewisse Vorgehensweisen ethisch problematisch sind, werde in der aktuellen Big-Data-Goldgräberstimmung oftmals übersehen.

Gerade bei Daten aus sozialen Netzwerken greift ein grundlegendes Prinzip der Forschung nicht: informierter Konsens. Dieser Begriff meint, dass Menschen aktiv ihr Einverständnis dazu geben müssen, wenn sie beforscht werden sollen. “Es gibt die Tendenz, sich eher mit Methoden als mit Ethik zu beschäftigen”, so Heise.

“Das liegt einfach auch daran, dass keine Interaktion mit den Beforschten stattfindet. Es gibt keine Interviewpartner oder Laborversuche.” Zwar gäbe es Handreichungen und Richtlinien, diese können aber nicht mit dem technologischen Fortschritt mithalten. “Mein Ideal wäre eine Verzahnung von Methoden-mit Ethikausbildung, um frühzeitig für die nötige Sensibilisierung zu sorgen.”

Reicht ethische Selbstkontrolle durch die Forschenden?

Generell gibt es teils große Unterschiede zwischen den Forschungsdisziplinen. In vielen Ländern Europas liegt die ethische Aufsicht als freiwillige Selbstverpflichtung in der Hand der Forschenden. In den USA und Großbritannien sind Review-Boards üblich, die über die Standards und deren Einhaltung wachen. Dennoch tauchen immer wieder Fälle auf, und nicht nur im Umfeld von Facebook, in denen Kontrollinstanzen versagt haben, wie etwa in Dänemark, wo zwei Forschende die Nutzerdaten von 70.000 Usern einer Datingplattform unerlaubt und ohne jede weitere Anonymisierung als Forschungsdatensatz veröffentlicht hatten.

Verstöße wie diese entfachen die Debatte um die externe Kontrolle der Forschung. “Die Forschenden wollen ihre Forschungsfreiheit natürlich nicht eingeschränkt sehen”, meint Heise. “Sie verweisen gern darauf, dass die Daten ohnehin anonymisiert seien. Dabei lassen sich auch große anonymisierte Datensätze mit entsprechendem Aufwand wieder deanonymisieren. Oft helfen Nachlässigkeiten dabei.” Die Folgen, die das für einzelne Personen haben kann, sind häufig nicht absehbar.

Nicht nur in den Sozialwissenschaften, auch in der Medizin gibt es gute Gründe, sich durch die Datenberge zu wühlen. Die Informationen sollen dabei helfen, präzisere Diagnosen zu stellen und Krankheitsauslöser, Risikogruppen sowie Krankheiten exakter zu beschreiben. “Eine der fantastischen Sachen ist, dass man anhand anonymisierter Bevölkerungsdaten Krankheitsverläufe verfolgen kann”, erklärt Stefan Thurner, Professor für die Wissenschaft Komplexer Systeme an der Meduni Wien und Präsident des Complexity Science Hub Vienna (siehe auch Interview Seite 18).

“Daraus lässt sich folgern, wie die weitere Entwicklung einer Erkrankung aussieht und welche Therapien wirksam sind.” Man erhofft sich deutliche Verbesserungen bei der Gesundheitsplanung: “Ärzte können die Patienten auf eine Erkrankung vorbereiten und gemeinsam mit dem Patienten dieser gegensteuern.”

Bevölkerungsdaten geben auch Aufschluss über die Effektivität von Therapien und Medikamenten: Statt diese anhand bloßer Wirksamkeitsstudien zu beurteilen, lässt sich ihre Effektivität im täglichen Einsatz beobachten. Zudem würde man so auch erfahren, bei wem wann welche Therapie am besten wirkt. Patienten wie Krankenkassen könnten so wenig wirksame Therapien erspart werden. Die dafür notwendigen Daten existieren bereits in amtlichen Statistiken oder bei den Krankenkassen. Die Bewertung der Daten scheitert jedoch häufig an entsprechenden Analyseinstrumenten. Einer der wichtigsten Datensätze für Thurners Arbeit ist der Forschungsdatensatz der Sozialversicherungsträger. Dieser enthält anonymisierte Informationen von rund acht Millionen Patienten, deren Diagnosen und Behandlungen.

“Da wir in der Medizin mit anonymisierten, aber personenbezogenen Daten operieren, galten hier schon immer strenge Regeln”, erklärt Thurner. “Oft führt der Weg dabei über eine Ethikkommission. Sie entscheidet über Verwendung und Handhabung – oder aber wir müssen nachweisen, dass Datenschutzbestimmungen eingehalten werden. In vielen wissenschaftlichen Journalen ist es sogar unmöglich, ohne einen solchen Nachweis zu publizieren.”

Eine missbräuchliche Verwendung von Daten sei nie gänzlich auszuschließen. Die größere Gefahr liege jedoch nicht in den Daten der öffentlichen Verwaltung, sondern bei den Informationen, die Menschen freiwillig in sozialen Medien preisgeben.

Open Data als Ausweg?

… und immer Ärger mit ELGA

Problematisch an Daten in sozialen Medien ist nicht nur der Umstand, dass sie auch von Forschenden missbräuchlich verwendet werden können. Die Verfügungsgewalt über diese Daten liegt bei Konzernen, die sie über ihre Technologie weitervermitteln. So hat Facebook im Zuge der jüngsten Entwicklungen beschlossen, vorerst keine Daten zu Forschungszwecken mehr zur Verfügung zu stellen. Ein Umstand, der genauso wenig zu begrüßen ist wie der Missbrauch von Daten.

“Wollen wir nicht als Gesellschaft daran arbeiten, selbst solche Datenpools herzustellen und für gemeinnützige Zwecke einzusetzen?”, fragt Medienforscherin Nele Heise. “Mit dem Open-Data-Ansatz gibt es erste Versuche in diese Richtung. Wichtig für einen solchen Ansatz sind aber Freiwilligkeit, Konsens sowie Informiertheit.” In Teilen existiert ein solches Szenario bereits: Immer mehr öffentliche Verwaltungen beteiligen sich an Open-Data-Initiativen. Krankenkassen und Ministerien verfügen mit ihren Registern über eine Vielzahl von relevanten und sensiblen Daten.

Im April dieses Jahres standen diese im Zentrum der öffentlichen Aufmerksamkeit. Noch vor dem Beschluss der stark entschärften Datenschutzverordnung hatte die Novellierung des Forschungsorganisationsgesetzes für heftige Kritik gesorgt. Universitäten, Fachhochschulen und Museen, aber auch Forschungsabteilungen von Unternehmen sowie Einzelpersonen sollen Zugang zu den Registerdaten beantragen können. Dabei gelten Geheimhaltungsgebot, Diskriminierungsverbot (es dürfen keine Nachteile für Betroffene entstehen) und Protokollierungspflicht. Eine Einwilligung der Datenschutzbehörde soll zukünftig nicht mehr nötig sein.

Welche Register zur Verfügung gestellt werden, soll das zuständige Ministerium entscheiden. Explizit ausgenommen sind nur Datenbanken der Justiz und das Strafregister. Auch die elektronische Gesundheitsakte (ELGA) soll unter diese Regelung fallen. Das sorgte für große Aufregung: Fünftausend Menschen meldeten sich im heurigen April von ELGA ab. Doch laut EL-GA-Manager Martin Hurch ist eine Öffnung der Daten für die Forschung aus technischen Gründen gar nicht möglich. Abfragen sind nur personenbezogen, aber nicht nach Krankheitsbildern möglich.

Carte blanche für die Forschung statt Einverständnis?

Die von Heise reklamierten Standards bezüglich Informiertheit und Konsens fehlen in den aktuellen Regelungen der Bundesregierung. Damit ist die Chance auf einen Dialog über die Abwägung von zwei fundamentalen Grundrechten -der Freiheit der Forschung und dem Recht auf Schutz der Privatsphäre -fürs Erste vertan. Die Forschung erhält Carte blanche, Bürgerinnen und Bürger tendenziell den Status digitaler Versuchskaninchen. Ob die Beforschung von Registerdaten langfristig erfolgreich sein kann, wenn sie ohne die Zustimmung und das Vertrauen der Beforschten erfolgt, ist zweifelhaft.

“Big Data ist wie Teenager-Sex”, tweetete der US-Pyschologe Dan Ariely vor fünf Jahren. “Jeder spricht darüber, niemand weiß, wie man es wirklich macht, und jeder glaubt, dass alle anderen es tun, weshalb alle behaupten, dass sie es auch machen.” Gilt das auch für die Ethik beim Umgang mit Daten?