Leitthema Bundesgesundheitsbl 2015 · 58:788–793 DOI 10.1007/s00103-015-2180-z Online publiziert: 20. Juni 2015 © Springer-Verlag Berlin Heidelberg 2015

Viktor Mayer-Schönberger

Zu Beginn der H1N1-Pandemie 2009 fürchteten Experten, dass deren Ursache ein neues und gefährliches Virus sei. In Ermangelung eines Impfstoffes konnten Gesundheitsbehörden nur daran arbeiten, die Verbreitung dieses Virus zu kennen und zu beschränken. Einschätzungen zu seiner Verbreitung beruhten etwa in den USA auf Daten von tausenden praktischen Ärzten, deren Sammlung und Auswertung Tage in Anspruch nahm, sodass die Centers for Disease Control (CDC) lediglich ermitteln konnten, wo das H1N1Virus in den vorangegangenen ein bis zwei Wochen auftrat. Das wäre bei einer tödlichen Pandemie kaum hilfreich. Etwa zur gleichen Zeit entwickelten Informatiker beim Internetkonzern Google einen gänzlich anderen Ansatz. Er basierter auf der Idee, dass vom H1N1Virus betroffene Menschen im Internet nach entsprechenden Informationen suchen würden. Die Häufigkeit der Suchanfragen zu H1N1-Informationen wäre also ein Indikator für die Virus-Verbreitung. Da Google – je nach Land – zwischen 70 und 90 % aller Internet-Suchanfragen erhält (täglich sind es mehr als vier Milliarden) und diese seit vielen Jahren zusammen mit Informationen darüber speichert, wann und woher die Anfrage kam, verfügt das Unternehmen über einen reichen Datenschatz. Die Informatiker suchten nun nach einer Korrelation zwischen diesen Suchanfragedaten und den offiziellen Daten der CDC zur saisonalen Grippe der letzten fünf Jahre. Sie hatten Erfolg und konnten in der Folge über viele Monate lang das Auftreten der saisonalen Grippewelle in den USA an Hand der an Google gestellten Internet-Suchanfragen mit relativ guter Treffsicherheit vorhersagen; dies im Gegensatz zu den CDC nicht mit zwei Wochen Verspätung, sondern fast in Echtzeit [1].

Das Projekt „Google Flu Trends“ erregte nicht nur in Expertenkreisen Aufsehen. Es ist zwar trotz der riesigen Datenmengen noch nicht ganz das, was man als „Big Data“ bezeichnen würde – also das Gewinnen von neuen, vor allem auf Korrelationen beruhenden Einsichten in die Wirklichkeit an Hand einer relativ zum zu untersuchenden Phänomen annähernd vollständigen Datenmenge -, zeigt jedoch klar in diese Richtung.

ren erlaubt – von der Qualitätskontrolle in der industriellen Fertigung bis hin zur Entwicklung neuer Medikamente. Aber diese „small data“ haben auch gewichtige Nachteile, mit denen wir uns bisher in Ermangelung von Alternativen abfanden. Aufgrund des Fortschritts in den Digitaltechnologien müssen wir dies aber vielleicht nicht länger tun.

„Small Data“

Es begann wohl zuerst vor zwei Jahrzehnten in den Naturwissenschaften. Das Festhalten und Auswerten von Daten wurde hier immer einfacher und kostengünstiger. Die Verarbeitungsleistung und Speicherkapazität der digitalen Werkzeuge nahm rasant zu, gleichzeitig verbesserten sich die Leistungsfähigkeit und Verfügbarkeit moderner digitaler Sensoren dramatisch. So konnte ein einziges neues Teleskop, das im Jahr 2000 in Betrieb ging, in den ersten Monaten schon mehr Daten sammeln als in der gesamten davorliegenden Geschichte der Astronomie. Die Physiker am europäischen Kernforschungszentrum CERN sammeln bei jedem Experiment in Sekundenbruchteilen eine ungeheure Zahl an Einzeldaten. Aber auch im Gesundheitsbereich hat die Menge an Daten drastisch zugenommen, nicht zuletzt weil ihr Sammeln und Speichern so günstig geworden ist. Erforderte die erste Sequenzierung eines menschlichen Genoms noch zehn Jahre und eine Milliarde Dollar, so ist Vergleichbares heute für ein paar tausend Dollar in ein paar Tagen zu haben. Nach besten Schätzungen hat sich die Datenmenge in der Welt zwischen 1987 und 2007 verhundertfacht [3]. Zum Vergleich: Die Gutenberg’schen Druckrevolution soll eine Verdoppelung der Daten-

Oxford Internet Institute, Universität Oxford, Oxford, Großbritannien

Big Data – Eine Revolution, die unser Leben verändern wird

Der Wunsch, durch das Sammeln von Daten die Welt verstehen zu wollen, ist so alt wie die Menschheit. Seit jeher haben Menschen aus ihren Beobachtungen auf die Wirklichkeit geschlossen. Aber es war ihnen auch bewusst, dass das Sammeln, Speichern und Auswerten von Daten mühsam und beschwerlich, kostenund zeitaufwändig ist. Diese praktische Schwierigkeit im Umgang mit Daten hat die Methoden und Institutionen der Wissensschöpfung grundlegend beeinflusst. Wir haben jene Strukturen geschaffen, die es erlauben, Erkenntnisse aus der kleinstmöglichen Menge an Daten zu gewinnen. Das führte etwa dazu, dass die konventionelle wissenschaftliche Methode ein gezieltes Sammeln von Forschungsdaten zu einem bestimmten Zweck vorsieht. Die Datensammlung in randomisierten Stichproben ist ein weiteres prägnantes Beispiel. Vor nicht einmal einhundert Jahren entwickelten Statistiker diese Methode, um aus sehr kleinen Datenmengen Rückschlüsse auf das große Ganze ziehen zu können [2]. Sie war eine sinnvolle Abkürzung, vor allem wenn die Analyse des Ganzen zu aufwändig war. Und sie hat uns eine Fülle an neuen Erkenntnissen geliefert sowie den Einsatz neuer Verfah-

788 |  Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015

Die Datenlawine

menge über einen Zeitraum von 50 Jahren bedingt haben [4]. Im Gegensatz dazu verdoppelt sich die Datenmenge in der Welt derzeit jeweils in weniger als zwei Jahren. Hinzu kommt, dass diese riesigen Datenmengen gerade erst in den letzten Jahren durch die Digitalisierung kostengünstig und zeitnah such- und verarbeitbar wurden. Noch im Jahr 2000 waren drei Viertel der Daten in der Welt analog; heute sind bereits mehr als 99 % digital. Digitale Werkzeuge zur einfachen Sammlung, Verarbeitung und Speicherung von Daten haben also eine drastische Zunahme der Datenmenge in der Welt ermöglicht. Sie erlauben aber zunehmend auch das Hinterfragen bestehender Methoden und Strukturen zur Erkenntnisschöpfung, die auf „small data“ (geprägt von der Schwierigkeit mit Daten umzugehen) beruhen.

„Big Data“ und seine Qualitäten Als „Big Data“ bezeichnet man also etwas verkürzt die Möglichkeit, aus einer großen Zahl an Daten Einsichten zu erlangen, die aus einer kleinen Datenmenge, etwa aus einer randomisierten Stichprobe, nicht hätten gewonnen werden können. Ein drastisches Mehr an Daten soll zu ihrem qualitativ anderen Verständnis führen. Von Big-Data-Unternehmen wird in diesem Zusammenhang regelmäßig auf die absolute Zunahme an Datenpunkten verwiesen. Das ist allerdings für Big Data nicht konstitutiv. Entscheidend ist, dass nunmehr relativ zum Phänomen, das man verstehen möchte, dramatisch mehr Datenpunkte gesammelt werden als zuvor. Im besten Fall bedeutet dies, dass statt einer relativ kleinen Stichprobe nun die Grundgesamtheit zur Analyse herangezogen wird und dass man versucht, möglichst viele unterschiedliche Dimensionen eines Phänomens in Daten abzubilden. Das heißt aber auch, dass Big Data mit Tausenden und nicht erst mit Millionen von Datenpunkten möglich ist. Es kommt auf das zu studierende Phänomen an. Dieses relative Mehr an Daten erlaubt nicht nur die Fokussierung auf interessante Details, die sich erst im Zuge der Analyse herauskristallisieren. Es können so

mitunter auch Antworten auf Fragen gegeben werden, die beim Sammeln der Daten noch nicht gestellt wurden. „Die Daten sprechen lassen“ nennen Experten dies bewusst provokant. Beispielsweise wurde viele Jahre lang vermutet, dass bei japanischen SumoKämpfen „geschoben“ würde. Aber keine Analysen konnten einen Beleg dafür liefern – weder die auf randomisierten Stichproben basierenden noch Analysen einzelner und besonders wichtiger Champion-Kämpfe. Erst als zwei amerikanische Wirtschaftswissenschafter die Daten zu allen Sumo-Einzelkämpfen der letzten zehn Jahre sammelten und analysierten, erkannten sie ein überraschendes und unnatürliches Muster, das auf „Schiebung“ schließen ließ. Aber es trat nicht gleichmäßig auf die Kämpfe verteilt auf und auch nicht, wie erwartet, bei den Champion-Kämpfen. Vielmehr zeigte es sich bei den von früheren Analysten als unwichtig eingestuften Kämpfen um die hinteren Plätze. Aufgrund einer bis dahin kaum beachteten Sumo-Regel kam auch diesen Einzelkämpfen Bedeutung zu – und genau dort wurde „geschoben“. Die auf „small data“ basierenden Analysen hatten das nicht entdeckt, weil hier sowohl die Details fehlten als auch das Verständnis dafür, dass sich die Korruption auf diese Kämpfe beschränken könnte. Es war Big Data, auch wenn die absolute Menge an Daten zu etwas über 30.000 Einzelkämpfen gering war [5]. Um neben der zusätzlichen DatenQuantität auch Informationen zu unterschiedlichen Dimensionen eines Phänomens zu erhalten, werden zukünftig immer mehr Datenquellen unterschiedlicher Provenienz und damit Qualität verknüpft werden. In der Welt von „small data“ wird dieses Verbinden von Daten unterschiedlicher Qualität in der Regel kritisch gesehen. „Garbage in, garbage out“, formulieren es die Statistiker prägnant. Das gilt auch in Zukunft. Aber die absolute Bedeutung der Datenqualität wird im Kontext von Big Data durch ein Abwägen ersetzt: Werden wenige, aber qualitativ höherwertige Daten oder sehr viel mehr, wenn auch qualitativ unterschiedliche Daten benötigt? Ersteres ist, wenn man die Wahl hat, nicht zwangsläufig besser als Letzteres. Es kommt nicht zuletzt

auch darauf an, was man mit der Analyse erreichen möchte. Wie „small data“ fußt auch Big Data auf statistischen Analysen. Diese können in der Regel keine unmittelbare Auskunft über Ursachen geben und zeigen lediglich Korrelationen. Das ist nicht neu. Aber auch Korrelationen liefern Einsichten, jenseits von Kausalitäten. Zu wissen, was passiert, auch wenn das „warum“ noch verborgen bleibt, kann zu pragmatischen Handlungsanweisungen führen. Im Zuge eines Forschungsprojektes an der Universitätsklinik Toronto wurde bei Frühgeborenen eine große Zahl an Daten über deren Vitalfunktionen gesammelt und in diesen nach Mustern gesucht, um das Auftreten einer Infektionserkrankung mit großer Wahrscheinlichkeit vorhersagen zu können. Dieses gelang, d. h. vorliegende Infektionen können 24 h vor Auftreten der ersten Symptome lediglich anhand der Veränderung von Mustern der Vitalfunktionen erkannt werden. Dabei wissen die Forscher nicht warum, aber die Vorhersage mag reichen, um frühzeitig mit der Behandlung zu beginnen [6]. Das heißt nun nicht, dass wir mit Big Data die Suche nach den Ursachen aufgeben. Keineswegs. Aber weil die Big-DataAnalyse oftmals sehr viel einfacher und schneller ist als die Analyse der Kausalitätskette, werden wir in Zukunft sehr viel öfter damit konfrontiert sein, bei erdrückender Faktenlage des Was zu handeln, ohne eine abschließende Antwort auf das Warum geben zu können. Das muss keineswegs ein Erkenntnisrückschritt darstellen. Nicht zuletzt hat der Nobelpreisträger für Ökonomie Daniel Kahnemann eindrücklich nachgewiesen, dass Menschen oft zu schnellen Ursachenschlüssen neigen, die ihnen lediglich das Gefühl geben, die Welt zu verstehen, die aber tatsächlich falsch sind. Der Nachweis von Kausalität gelingt viel seltener als wir annehmen und ist in der Regel mit einem vergleichsweise hohen Aufwand verbunden [7]. „Lediglich“ auf Korrelationen beruht etwa die in einem Forschungsprojekt von Microsoft und den Universitäten Stanford und Columbia gewonnene Einsicht über negative Wechselwirkungen von Medikamenten [8]. Auch hier wurden Internet-Suchanfragen als Datenbasis

Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015 

| 789

Zusammenfassung · Abstract verwendet und analysiert, ob sich Suchanfragen zu mehreren Medikamentennamen und dem Symptom einer negativen Wechselwirkung häufen, insbesondere auch im Vergleich zu Suchanfragen für nur eines der Medikamente und dem Symptom. So konnten potentielle, negative Wechselwirkungen zwischen zwei Medikamenten identifiziert werden, die den Herstellern bisher nicht bekannt waren. Die Forscher konnten zwar keine Begründung für die vermutete Wechselwirkung anbieten, aber schon der Hinweis auf eine solche ist wertvoll. Diese Beispiele zeigen das Potenzial von Big Data. Es werden mit Hilfe der Daten nicht bloß Vermutungen (jedenfalls vorläufig) widerlegt oder bestätigt, sondern neue Vermutungen generiert, die genauer zu prüfen sich lohnen kann. Das ist ein bedeutender praktischer Fortschritt im wissenschaftlichen Erkenntnisprozess.

Ein verbesserter wissenschaftlicher Erkenntnisprozess Besteht eine Korrelation zwischen zwei Phänomenen, so kann diese genutzt werden, wenn man ein Phänomen studieren möchte, es aber nicht direkt beobachten oder messen kann. Denn über die Korrelation lassen sich über das Ursprungsphänomen indirekt, also über einen Stellvertreter (engl. „proxy“), Aussagen machen. Das erleichtert den Erkenntnisgewinn, weil man eben nicht mehr das schwer zu beobachtende Phänomen selbst, sondern das Proxy misst. Bei Google Flu Trends etwa sind die an Google gerichteten Suchanfragen das Proxy für die Verbreitung der Grippe. Gedanklich ganz ähnlich ist der Ansatz, die (noch) nicht beobachtbare Zukunft aus der Fortschreibung der Vergangenheit und/oder der Gegenwart vorherzusagen. Auch hier wird das, was messbar ist, als Proxy eingesetzt. Ein Beispiel ist das beschriebene Forschungsprojekt zur Vorhersage von Infektionen bei Frühgeborenen, das aus den Daten der Vitalfunktionen in der Vergangenheit und Gegenwart auf wahrscheinliche zukünftige Geschehnisse schließt. Das ist grundsätzlich nichts Neues. Aber im Zeitalter von Big Data wer-

den immer mehr Aspekte der Wirklichkeit in Daten abgebildet. Dafür verantwortlich sind kostengünstige, leistungsfähige sowie innovative digitale Sensoren und die einfache Speicherung digitaler Daten. Das führt dazu, dass immer mehr Daten und damit auch immer mehr Proxies zur Verfügung stehen. War es beispielsweise in der Vergangenheit schwierig zu messen, ob und wie Schulkinder ein Lehrbuch lesen, so ist dies mit der Verfügbarkeit elektronischer Bücher auf TabletComputern einfacher geworden. Zwar lässt sich das Lesen selbst nicht unmittelbar messen, wohl aber ob jede Seite einmal geöffnet wurde, wie lange sie geöffnet blieb, ob Textstellen elektronisch markiert oder kommentiert wurden und dergleichen mehr. Hier ist es naheliegend, dass eine Kombination aus einigen dieser Datenströme gut mit dem tatsächlichen Akt des Lesens korreliert. Mit Korrelationen zu arbeiten, um etwas schwer oder noch gar nicht Beobachtbares dennoch fassbarer zu machen, ist das tägliche Brot der Statistiker. Sie kennen damit auch genau die Grenzen dieser Herangehensweise. Zum einen ist das Proxy ja nie das Phänomen selbst, das man beobachten möchte. Zum zweiten sind Korrelationen nur mathematische Beziehungen, die nicht zwangsläufig etwas über tatsächliche Zusammenhänge aussagen. Sucht man lange genug vor allem nach kleinen Mustern, wird man diese in großen Datenmengen auch dort finden, wo gar kein Zusammenhang besteht: Dann korrelieren die Ausgaben für Forschung und Wissenschaft im amerikanischen Staatsbudget mit der Zahl der Selbstmordfälle durch Erhängen(dieses und andere Beispiele finden sich auf der interaktiven Webseite [9]). Der Mathematiker Karl Pearson nannte dies „spurious correlations“ (Scheinkorrelationen); es ist Lärm, der vorgibt, ein wichtiges Signal zu sein. Auch Big Data bietet keine Antworten auf die Gefahr durch Scheinkorrelationen (s. dazu umfassend [10]). Aber aufgrund besserer statistischer Werkzeuge und Achtsamkeit in der Analyse ist dieses Problem bei Big Data auch nicht zwangsläufig größer als bisher. Anders hingegen ist bei Big Data die Frage – und das ist von zentraler Bedeutung – wie wir passende Proxies finden

790 |  Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015

Bundesgesundheitsbl 2015 · 58:788–793 DOI 10.1007/s00103-015-2180-z © Springer-Verlag Berlin Heidelberg 2015 V. Mayer-Schönberger

Big Data – Eine Revolution, die unser Leben verändern wird Zusammenfassung Big Data ermöglicht es, aus einer – relativ gesehen – großen Datenmenge Einsichten in die Wirklichkeit zu gewinnen, die bisher so für uns nicht zugänglich waren. Unsere bisherige Schwierigkeit im Umgang mit großen Datenmengen hat die Methoden wissenschaftlicher Erkenntnis geprägt. In dem Maß, in dem sich das Sammeln und Analysieren von Daten durch die digitalen Werkzeuge erleichtert und verbessert, werden wir auch unsere Erkenntnismethoden anpassen müssen. Im Gegenzug dazu, erhalten wir einen beschleunigten und verbesserten Zugang zu wissenschaftlicher Erkenntnis, insbesondere in den Bereichen der Lebens- und Sozialwissenschaften. Die Mächtigkeit von Big Data gebietet aber auch, dass wir uns seiner Grenzen ebenso gewahr sind wie der außergewöhnlichen Gefahren einer missbräuchlichen Verwendung. Schlüsselwörter Big Data · Digitalisierung · Wissenschaftliche Methode · Statistik · Kausalität

Big data: a revolution that will transform our lives Abstract Big data denotes our capacity to gain insights from (in relative terms!) large amounts of data that we could not have had by just looking at samples. Our difficulty in working with data has shaped our methods in the small data age. As these limitations with respect to data diminish, we will have to rethink and adjust our scientific methods. In return, we will gain a wealth of new insights, perhaps leading towards a new golden era of scientific discovery. Big Data power demands, however, that we also are cognizant of its limitations and the significant dangers of abusing it. Keywords Big data · Digitization · Scientific method · Statistics · Causality

können. Bisher wurde meist versucht, diese auf Basis menschlicher Intuition und Vermutungen über kausale Zusammenhänge zu erschließen und dann zu testen. Auf Google Flu Trends übertragen, hätte dies ausgehend von der Theorie,

dass Menschen mit Grippe im Internet nach Informationen dazu suchen, bedeutet, dass sich die Informatiker zuerst hätten überlegen müssen, welche Suchanfragen Menschen mit Grippe vor allem stellen, um dann in einem zweiten Schritt die Korrelation zwischen diesen vermuteten Suchanfragen und der Verbreitung der Grippe aus historischen Daten zu testen. Aber aus der ungeheuren Menge an Suchbegriffen genau jene intuitiv auszuwählen, nach denen von der Grippe Betroffene am ehesten suchen, ist wie die sprichwörtliche Suche nach der Stecknadel im Heuhaufen. Das bedeutet einen langwierigen Prozess von Versuch und Irrtum, bei dem in der Praxis nach jedem Test einiger Suchbegriffe und dem Finden einer Korrelation überlegt wird, das Projekt „erfolgreich“ zu beenden. Aber mit dem Identifizieren einer Korrelation hat man keineswegs das Modell gefunden, das die Grippeverbreitung am besten widerspie­ gelt. Der Erkenntnisprozess ist langsam und massiv von den subjektiven Einschätzungen der Forscherinnen und Forscher beeinflusst. Einsichten entstehen so oftmals zufällig und sind mit großem Aufwand verknüpft. Googles Herangehensweise war hinge­ gen grundlegend anders. Das Flu-TrendsTeam schrieb eine Software, die automatisch nicht einen einzigen, sondern jeden der 50 Mio. populärsten Suchbegriffe und insgesamt 450 Mio. Begriffskombinationen analysierte. Für jede dieser Kombinationen wurde ermittelt, wie gut sie die Verbreitung der Grippe in den vergangenen Jahren vorhergesagt hätte. Am Ende dieses Verfahrens hatte das Google-Team die Kombination von Suchbegriffen identifiziert, die am besten passte. Sie hatten damit den Erkenntnisprozess dramatisch beschleunigt, da sie die Daten nicht nur zum Testen einer konkreten Hypothese, sondern bereits zur Generierung von Hy­ pothesen verwendet hatten. Das ersetzt Versuch und Irrtum nicht, lässt aber diese Kette aus Versuchen und Irrtümern, aus Erstellen und Testen von Hypothesen au­ tomatisiert ablaufen. Im Kontext von Big Data verschiebt sich auch die Bedeutung von Daten und Algorithmen. Wenn nur sehr wenige Daten vorliegen, kommt dem Modell – etwa in Form eines Algorithmus – sehr viel

Gewicht zu; es muss das Manko an Daten ausgleichen. Im Gegensatz dazu, können bei – relativ zum Phänomen gesehen –großen Datenmengen die Algorithmen immer einfacher werden, weil die Erkenntnis nun primär aus den Daten geschöpft werden kann.

Von Boole zu Bayes: Demut gegenüber der Komplexität der Wirklichkeit 2013 veröffentlichte ein amerikanisches Forscherteam einen Bericht, der mit Google Flu Trends hart ins Gericht ging [11]. Vor allem wurde darin gezeigt, dass die Vorhersage der Grippeverbreitung im Dezember 2012 massiv von der tatsächlichen Zahl an Grippeerkrankten abwich. Google Flu Trends, so schrieben daraufhin die Medien, habe sich geirrt, und manche Big-Data-Kritiker nannten es überhaupt den Anfang des Endes von Big Data. Was war passiert? Nach Veröffentlichung des Flu-TrendsProjektes 2009 hatte Google die Verbreitung der Grippe über viele Monate lang relativ gut vorhergesagt, aber im Dezember 2012 wurde eine Grippewelle prognostiziert, die in der Realität nie eintrat. Das deutete auf ein fundamentaleres Problem hin. Und es war auch schnell gefunden. Denn die Suchanfragen, das von Google gewählte Proxy, um die Verbreitung der Grippe zu ermitteln, reflektieren menschliches Verhalten und dieses verändert sich im Laufe der Zeit. Google erhält jeden Tag mehrere Milliarden neuer Suchanfragen und folglich auch mehrere Milliarden neuer Datenpunkte, die Google Flu Trends in sein Modell mit einbeziehen sollte, ebenso wie die offiziellen monatlichen Daten zur Grippe. Statt jedoch jeden neuen Datenpunkt als neuen Hinweis auf die Wirklichkeit anzunehmen, ließ Google seine Vorhersage auf den Korrelationen der Jahre vor 2009 beruhen, so, als wäre menschliches Suchverhalten im Internet unveränderlich und als ließe sich eine dynamische Wirklichkeit in ein statisches Modell zwingen. Das ist offensichtlich falsch. Auch wer eine Münze wirft, wird nie genauso oft Kopf wie Zahl werfen. Denn jede Münze und jeder Werfer sind an-

ders und weichen daher vom Idealfall ab. Die Idealvorstellung einer gleich großen Wahrscheinlichkeit für den Wurf von Kopf und Zahl ist eine hilfreiche Näherung an die Wirklichkeit, aber sie entspricht nicht der Realität. Oftmals ist die Welt schlichtweg komplexer als unsere vereinfachenden Vorstellungen von ihr. Das bedeutet aber auch, dass jeder Münzwurf und damit das Wissen, ob Kopf oder Zahl oben liegen, uns ein kleines Stück mehr über die Welt in ihrer Komplexität verraten; neue Daten sind eine Chance, die Welt so wie sie tatsächlich ist ein wenig besser zu verstehen. Das heißt zunächst demütig zu akzeptieren, dass wir mit unseren oft verkürzenden Verallgemeinerungen weniger über die Welt wissen, als wir glauben. Es heißt auch, die Welt als detailreich und komplex anzunehmen und jeden zusätzlichen Datenpunkt als Chance zu nehmen, um ein bisschen mehr Einsicht über die Wirklichkeit zu gewinnen. Schließlich bedeutet es auch zu begreifen, dass wir uns zwar immer stärker der Wirklichkeit annähern, sie aber nie tatsächlich vollständig in Daten fassen und gänzlich verstehen können. Die Google-Informatiker nahmen sich die Kritik zu Herzen. Sie fügten ihrer Analyse Daten – Suchanfragen und offizielle Grippedaten – bis einschließlich 2011 hinzu und rechneten ihr Modell erneut. Die revidierte Analyse erreichte für Dezember 2012 eine deutlich bessere Vorhersage. Google wird seine Analyse wohl in regelmäßigen Abständen immer wieder durchführen und neues Datenmaterial verarbeiten (und hat dies auch schon ein weiteres Mal getan) [12]. Das Problem war also nicht Big Data an sich, sondern ein Rest der traditionellen Vorstellung, dass sich die dynamische Wirklichkeit einem statischen Modell unterwerfen würde, d.  h. Big Data wurde nicht als Chance wahrgenommen, die dynamische Welt ein Stück mehr zu verstehen. Und noch etwas müssen wir im täglichen Umgang mit den Ergebnissen der Big-Data-Analysen stärker verinnerlichen: das Denken und Entscheiden auf der Basis von Wahrscheinlichkeiten. Das ist eine große Herausforderung, auch wenn Physiker uns schon seit ei-

Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015 

| 791

Leitthema nem Jahrhundert klar zu machen suchen, dass Wahrscheinlichkeiten an der Wurzel unserer Erkenntnis liegen. Denn unser Entscheiden ist binär, und das beeinflusst auch unser Denken. Bei der gedanklichen Umwandlung von statistischen Wahrscheinlichkeiten in binäre Entscheidungen unterlaufen uns oft Fehler, die unser Urteilsvermögen beeinträchtigen. Werden Big-Data-Analysen als Grundlage für menschliche Entscheidungen herangezogen, ist daher besondere Vorsicht angebracht, damit der mögliche Erkenntnisfortschritt nicht an einer zu vereinfachten Transformation der Ergebnisse in eine konkrete Entscheidung scheitert.

Bereichen könnte Big Data also durchaus zu einem „goldenen Zeitalter“ wissenschaftlicher Erkenntnisse führen. Damit einher geht aber auch eine zunehmende Bedeutung der Datensammlung und vor allem der Datenanalyse. Die Sozial- und Lebenswissenschaften im Allgemeinen und die Gesundheitsforschung im Besonderen werden in Zukunft noch deutlicher datengetrieben sein, als sie es bisher schon war. Das bedeutet aber auch, dass die Rolle von Datenanalysten und Statistikern (vor allem jene, die sich auf Big-Data-Analysen verstehen) im Forschungsbetrieb zunehmend wichtiger wird.

Konsequenzen für die Forschung

Die dunklen Seiten von Big Data

Für die Forschung haben die eben geschilderten Aspekte vor allem zwei nachhaltige Konsequenzen. Zum einen wird es in einer zunehmenden Zahl von Fällen möglich, Daten nicht bloß über eine Stichprobe, sondern über die Grundgesamtheit selbst zu sammeln. Damit stehen Daten in einer Detaildichte zur Verfügung, die neue und umfassendere Einsichten ermöglichen. Darüber hinaus können diese Daten nicht bloß einmal – gleichsam als Momentaufnahme – gesammelt werden, sondern stehen mitunter laufend zur Verfügung. Dies ermöglicht wiederum eine viel bessere Analyse von Dynamiken über die Zeit. Dieses Mehr an Daten in der Breite und über die Zeit hilft vor allem den Sozial- und Lebenswissenschaften. Wir können damit das Verhalten und Leben von Menschen viel umfassender begreifen, als es bisher möglich war. Das gibt den empirischen Sozial- und Lebenswissenschaften neuen Antrieb, beinhaltet für die Gesundheitsforschung aber auch die Hoffnung auf einen bedeutenden Zugewinn an neuen Erkenntnissen. Zum anderen erhöht sich mit Big Data auch die Geschwindigkeit des Erkenntnisprozesses, weil Hypothesen automatisch generiert und getestet werden können. Über das Aufdecken von besonders starken Korrelationen wird zudem die Ursachenforschung erleichtert, weil sie helfen, die Suche nach Kausalitäten auf die vielversprechendsten möglichen Zusammenhänge zu konzentrieren. Gerade in diesen

Big Data bedeutet aber nicht nur die Hoffnung auf neue Erkenntnisgewinne. Der spezifische Zugang von Big Data zur Erkenntnisgenerierung setzt uns auch Gefahren aus, die – wenn wir es versäumen, ihnen vorzubeugen – die Fundamente unserer Gesellschaft gefährden könnten. Dazu gehört zunächst die Gefahr der Überwachung von Menschen im Zuge eines umfassenden Datensammelns und Datenspeicherns über lange Zeit. Damit besteht die Möglichkeit, ihnen jederzeit und auch noch nach vielen Jahren ihr Verhalten in der Vergangenheit vorzuhalten und informationelle Macht auszuüben. Dies könnte die Menschen wiederum veranlassen, ihr Verhalten anzupassen; sie würden sich dann nicht mehr so verhalten, wie sie wollten, sondern wie es der gesellschaftliche Druck vorgibt. Damit aber hätten wir auch das Objekt unserer Forschung verändert und letztlich die Ergebnisse unserer Arbeit verfälscht (abgesehen von ethischen und demokratiepolitischen Problemen). Die zweite, mit der ersten verwandte Gefahr besteht darin, dass wir auf Big Data beruhende Vorhersagen, insbesondere über zukünftiges Verhalten von Menschen zum Anlass nehmen, sie für nur vorhergesagtes Verhalten verantwortlich zu machen. Das ist zwar heute noch nicht der Fall, aber Entwicklungen in einer Reihe von Ländern deuten in diese Richtung. So wird in der Mehrzahl der amerikanischen Bundesstaaten die Frage, ob jemand auf Bewährung freikommt durch

792 |  Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015

eine Big-Data-Analyse mitentschieden, die vorhersagen soll, ob die Person in den nächsten 12 Monaten in einen gewaltsamen Todesfall verwickelt sein könnte. In einer zunehmenden Zahl von Städten (zuletzt auch in Europa) setzt die Polizei Big-Data-Analysen ein, um einzuschätzen, wann in welcher Straße welche Verbrechen begangen werden. Und in den USA (aber auch in Italien) setzen die Steuerbehörden auf Big Data, um Steuerhinterziehung vorherzusagen. Aber die Gefahr ist nicht bloß auf Strafverfolgungsfälle beschränkt. Ebenso problematisch könnte etwa sein, wenn jemand eine Behandlung nicht erhält, weil vorhergesagt ist, dass er sich nicht aktiv genug an der Nachsorge und Rehabilitation beteiligen wird. Und das wäre auch der Fall, wenn Versicherungen Versicherbarkeit und Prämienhöhe noch stärker aus einer individuellen Risikovorhersage ableiten würden. Für die Akzeptanz von Big Data in der Gesellschaft ist es daher von entscheidender Bedeutung, dass ein rechtlicher Rahmen Grenzen festlegt. Auch hier muss klar sein, dass nicht alles, was möglich ist, auch machbar ist. Das gilt im besonderen Maße für Big Data, weil Menschen versucht sind, aus den in der Regel lediglich auf Korrelationen beruhenden Erkenntnissen unmittelbar Ursachen erkennen zu wollen und die Daten damit schlicht missbrauchen.

Fazit Die Methoden wissenschaftlicher Erkenntnis wurden nicht zuletzt durch die Schwierigkeit, Daten zu sammeln und auszuwerten geformt. In dem Maße, in dem sich das Sammeln und Analysieren von Daten durch die digitalen Werkzeuge erleichtert und verbessert, werden wir auch unsere Erkenntnismethoden anzupassen haben. Das ist der Kern von Big Data: ein beschleunigter und verbesserter Zugang zu wissenschaftlicher Erkenntnis, insbesondere in den Bereichen der Lebens- und Sozialwissenschaften. Dies kann ein neues „goldenes Zeitalter“ dieser Wissenschaften bedeuten. Dabei müssen wir aber auch die Grenzen von Big Data verstehen und gesellschaftliche sowie gesetzliche Rahmenbedin-

gungen schaffen, um einen höchst problematischen Missbrauch, der die Fundamente unserer Gesellschaft in Frage stellen könnte, zu unterbinden.

Korrespondenzadresse Prof. Dr. V. Mayer-Schönberger Oxford Internet Institute Universität Oxford, 1 St Giles, OX1 3JS Oxford [email protected]

Einhaltung ethischer Richtlinien Interessenkonflikt.  Viktor Mayer-Schönberger gibt an, dass kein Interessenkonflikt besteht. Dieser Beitrag beinhaltet keine Studien an Menschen und Tieren.

Literatur   1. Ginsburg J et al (2009) Detecting influenza epidemics using search engine query data. Nature 457:1012–1014   2. Neyman J (1934) On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection. J Royal Stat Soc 97:558–625   3. Hilbert M, López P (2011) The world’s technological capacity to store, communicate, and compute information. Science 332:60–65   4. Eisenstein E (1993) The printing revolution in early modern Europe. Cambridge University Press, Cambridge, S 13–14   5. Duggan M, Levitt S (2002) Winning isn’t everything: corruption in sumo wrestling. Am Econ Rev 92:1594–1605   6. Mayer-Schönberger V, Cukier K (2013) Big data: a revolution that will transform how we live work and think. Houghton Mifflin Harcourt, Boston, S 59–61   7. Kahneman D (2011) Thinking, fast and slow. Farrar, Straus and Giroux, New York City, S 74–75   8. White R et al (2013) Web-scale pharmacovigilance: listening to signals from the crowd. J Am Med Informat Assoc 20:404–408   9. http://www.tylervigen.com. Zugegriffen: 3. Feb. 2015 10. Silver N (2012) The signal and the noise: why so many predictions fail – but some don’t. Penguin, New York 11. Lazer D, Kennedy R, King G, Vespignani A (2014) The parable of google flu: traps in big data analysis. Science 343:1203–1205 12. Stefansen C (2014) Google flu trends gets a brand new engine. http://googleresearch.blogspot. co.at/2014/10/google-flu-trends-gets-brand-newengine.html. Zugegriffen: 5. Jan. 2015

Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015 

| 793

[Big data: a revolution that will transform our lives].

Big data denotes our capacity to gain insights from (in relative terms!) large amounts of data that we could not have had by just looking at samples. ...
306KB Sizes 10 Downloads 10 Views