PRAXIS

M in i-R eview

Praxis 2015; 104 (3): 131-135

131

Institut für Epidemiologie, Biostatistik und Prävention, Universität Zürich Torsten Hothorn

« B ig D a t a » - g ro sse D a te n , v ie l W is s e n ? Big D ata, big Knowledge?

Zu sam m enfassun g Der Begriff «Big Data» wird seit einigen Jahren verwendet, um Technologien der empirischen Wissensgewinnung zu beschreiben und ist mittlerweile auch Diskussionsthema in den Massenme­ dien geworden. Da auch die Medizin eine empirische Wissenschaft ist, soll an dieser Stelle diskutiert werden, was der Begriff «Big Data» bedeutet und welcher potenzielle Nutzen sich für die medizinische Forschung daraus ergibt. Schlüsselwörter: Statistik - maschi­ nelles Lernen - Algorithmus - Modell

E inleitun g Der Begriff «Big Data» geht auf einen Artikel von Chris Anderson im Wired Magazine 16/2007 mit dem Titel «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete» zurück. Anderson formuliert in diesem Aufsatz die Hypothese, dass wissenschaftliche Erkenntnis zukünftig ohne Theorien auskommt und pure Korrelationen, wer­ den sie nur aus genügend grossen Daten berechnet, die «Wahrheit» hinreichend gut beschreiben. Tatsächlich ist die Idee nicht ganz abwegig, da uns die Wahr­ scheinlichkeitstheorie garantiert, dass wir aus Studien mit hinreichend gros­ sem Stichprobenumfang auch tatsäch­ lich die «Wahrheit» ableiten können. Viele statistische Verfahren basieren auf mathematischen Gesetzen, die sicher­ stellen, dass häufig verwendete Modelle, wie z.B. die berühmte Normalverteilung, asymptotisch, also bei wachsendem Stichprobenumfang, in einem gewissen © 2015 V erlag Hans Huber, H ogrefe AG, Bern

Sinne «richtig» sind. Ob sich diese theo­ retische Erkenntnis und die darauf be­ ruhenden Hoffnungen für «Big Data» auch in der Praxis, und insbesondere in der Medizin, bewahrheiten wird, soll durch einen Blick in die Geschichte nä­ her beleuchtet werden.

Ein Blick zurück Der Begriff «Big Data» steht in der Tradi­ tion einer langen Reihe von Vorgängern, die in den letzten 60 Jahren verwendet wurden, um Methoden der empirischen Erkenntnis beschreiben. Zu nennen sind hier sind «Predictive Modelling» (Vor­ hersagemodellierung), «Business Intel­ ligence» (Intelligente Geschäftsanaly­ sen), «Machine Learning» (Maschinelles Lernen), «Artificial Neural Networks» (künstliche neurale Netzwerke),«Pattern Recognition» (Mustererkennung) oder «Knowledge Discovery in Data» (Da­ tenbasierte Wissenserkennung). Allen Begriffen liegt die Idee zugrunde, dass man mithilfe von Computern verwert­ bares Wissen aus in der Regel unstruk­ turierten Datenbanken gewinnen kann. Des Weiteren ist bemerkenswert, dass alle genannten Begriffe ihren Ursprung in den Computerwissenschaften haben. Betrachtet man den Status quo der em­ pirischen Wissensgewinnung in der Me­ dizin, ist keiner der genannten Begriffe, vielleicht mit Ausnahme der «künstli­ chen neuronalen Netze», prominent vertreten. Stattdessen besteht eine lange Tradition, klinische oder Beoachtungs­ studien mithilfe von medizinstatisti­ schen Methoden zu planen, durchzu­ führen, zu analysieren und zu bewerten. Es stellt sich also die Frage, wie sich die

hinter den aus den Computerwissen­ schaften hervorgegangenen Begriffen stehenden Methoden zur klassischen medizinischen Statistik verhalten und welche Chancen sich daraus für den Er­ kenntnisgewinn in der Medizin ergeben. Interessanterweise beginnt Anderson seinen Aufsatz zu «Big Data» mit dem Zitat «All models are wrong, but some are useful» des berühmten Statistikers George Box. Dahinter steht die Auffas­ sung, dass grundsätzlich alle Model­ le (und somit alle wissenschaftlichen Theorien) nur annähernd die Wahrheit (so diese denn überhaupt existiert) be­ schreiben und in diesem Sinne «falsch» sind. Wenn sie aber einen Aspekt hin­ reichend gut und insbesondere besser als etablierte Modelle erklären, sind sie trotzdem hilfreich. In seinem kurzen Aufsatz benutzt Anderson achtmal das Wort statistics. Um zu verstehen, woher die Gemeinsamkeiten und Unterschiede von Statistik und «Big Data» sowie den genannten Vorgängerbegriffen kom­ men, ist ein Blick auf die Grundlagen der Statistik und insbesondere der medizini­ schen Statistik hilfreich. Die Definition der Wissenschaft Statis­ tik umfasst das Erheben, Analysieren, Interpretieren und Kommunizieren von Daten. Seinen Ursprung hat der Begriff im Wort statisticum (lat.: den Staat be­ schreibend). Ursprünglich und zu einem guten Teil bis heute war und ist Statis­ tik die Lehre von der Beschreibung des Staates, insbesondere seiner Bevölke­ rung, Wirtschaft und Verwaltung. Mit dem Aufkommen einer mathematischen Wahrscheinlichkeitstheorie vor 250 Jah­ ren entwickelte sich die Statistik zuneh­ mend zu einer allgemeinen Wissenschaft DOI 10.1024/1661-8157/a001914

PRAXIS

der empirischen Erkenntnis, befasst sich also mit der Wissensextraktion aus Ex­ perimenten und Beobachtungen. Ab Mitte des 19. Jahrhunderts wurden statistische Methoden sowohl in der Ma­ thematik als auch in wichtigen Anwen­ dungsgebieten, vor allem in der land­ wirtschaftlichen Forschung, der Genetik und der Medizin entwickelt. So wurde das heute unter dem Namen «Fishers ex­ akter Test» bekannte Verfahren in leicht anderer Form 1877 vom Tübinger Me­ dizinprofessor Carl von Liebermeister entwickelt [1] und der Mediziner John Snow legte 1849 mit seiner Untersu­ chung der Cholera-Epidemie in London die Grundlagen der Epidemiologie. Mit der Verbreitung von Computern in der zweiten Hälfte des 20. Jahrhunderts wurden die beiden Töchter der Mathe­ matik, die Computerwissenschaften und die Statistik, erwachsen und bildeten sich als die heute bekannten eigenständigen Disziplinen heraus. Die Statistik ist mit der Unterteilung in Biostatistik (Biome­ trie) und Wirtschafts- und Sozialstatistik weiter spezialisiert. Gemeinsame metho­ dische Grundlage ist ein hypothesen­ getriebener und damit modellbasierter Ansatz, in dem zunächst eine Fragestel­ lung mithilfe eines statistischen Modells formal definiert wird, dann ein entspre­ chendes Experiment geplant und durch­ geführt wird, um schliesslich mit den gewonnenen Daten freie Parameter des Modells zu schätzen, deren Unsicherheit zu beschreiben und gegebenenfalls eine a priori festgelegte Nullhypothese zu verwerfen. Der von einem technischen Standpunkt aus betrachtet wichtigste Punkt, die Modell- oder Parameterschät­ zung, das heisst, die Ableitung plausibler Modelle aus Daten, soll im Folgenden et­ was näher betrachtet werden.

Grundlagen statistischer Inferenz Um statistische Modelle an Daten an­ zupassen geht man, stark vereinfacht natürlich, nach folgendem Prinzip vor:

M in i-R e v ie w

Zunächst formuliert man ein wahr­ scheinlichkeitstheoretisches Modell für das interessierende Experiment, das unbekannte Parameter enthält. In ei­ nem zweiten Schritt definiert man eine Zielfunktion und ein daraus abgeleitetes Optimierungsproblem derart, dass man die unbekannten Parameter als eine ein­ deutige Lösung dieses Optimierungs­ problems erhält. In einem dritten Schritt übersetzt man das Optimierungspro­ blem in die Praxis, indem man es mithil­ fe der experimentell gewonnenen Daten umschreibt und dann für genau dieses Experiment löst. Als Ergebnis erhält man die Parameter, die (im Sinne des wahr­ scheinlichkeitstheoretischen Modells) die erhobenen Daten am besten be­ schreiben und interpretiert diese. Dieses theoretische Vorgehen, die sogenannte statistische Entscheidungstheorie, die von dem Mathematiker Abraham Wald in der 1940er Jahren entwickelt wurde, ist die gemeinsame Basis der Statistik und aller genannten Strömungen der Computerwissenschaften, angefangen von den «künstlichen neuronalen Netz­ werken» bis hin zu «Big Data». Selbst in einfachen Modellen, wie z.B. ei­ ner logistischen Regression oder einem Cox-Modell, ist es jedoch nicht mehr möglich, ein solches Optimierungspro­ blem mit Papier und Bleistift zu lösen. Stattdessen müssen numerische Opti­ mierungsverfahren in einem Computer durchgeführt werden, um für erhobene Daten jene Parameterwerte zu bestim­ men, die die Zielfunktion maximieren und damit die Daten am besten be­ schreiben. Der einzige Unterschied zwi­ schen der Statistik und allen genannten Strömungen der Computerwissenschaf­ ten ist die genaue Wahl der Zielfunktion und die genaue Implementierung des je­ weiligen Optimierungsalgorithmus. Von einer konzeptuellen Warte aus be­ trachtet sind also die Begriffe Statis­ tik und «Big Data» oder z.B. «Machine Learning» äquivalent. Das zeigt sich auch in der Gleichbedeutung vieler in den verschiedenen Feldern verwendeten Begriffe. Als Beispiel soll hier eine Über­

Praxis 2015; 1 04 (3): 131-135

132

setzung von im «Machine Learning» verwendeten Begriffen in die Sprache der Statistik dienen: • Supervised learning = Regression, • Target variable = Zielgrösse, • Attribute oder feature = erklärende Variable oder Kovariable, • Hypothesis = Modell, • Instances oder examples = Beobach­ tungen, • Learning = Parameterschätzung • Classification = Vorhersage. In Anbetracht dieser Gemeinsamkei­ ten ist es also naheliegend, nach den Unterschieden zwischen Statistik und «Machine Learning» zu fragen. Die Methoden der Statistik und des «Ma­ chine Learning» unterscheiden sich in der Wahl der Zielfunktion und deshalb auch in der Wahl des Optimierungsver­ fahrens. Eine sogenannte support vector machine für den Fall einer dichotomen Zielgrösse (im «Machine Learning»: bi­ nary classification) optimiert den soge­ nannten hinge loss während ein logistisches Regressionsmodell in der Statistik die log-Likelihood der Binomialvertei­ lung optimiert. In der Statistik werden off einfach interpretierbare Modelle be­ vorzugt, während im «Machine Learn­ ing» auf bestmögliche Modellqualität, gegebenenfalls unter Einbezug von komplexen nicht-linearen Funktionen, Wert gelegt wird. Etwas provokativ könnte man sagen, dass die Computer­ wissenschaften eine grosse Kompetenz im Lösen komplexer Optimierungspro­ bleme haben, während für die Statistik eher wahrscheinlichkeitstheoretische Modelle, deren Eigenschaften und deren Interpretation im Vordergrund stehen. Geht man etwas mehr ins Detail, sieht man sehr grosse Ähnlichkeiten zwi­ schen den beiden Disziplinen. «Künstli­ che neuronale Netzwerke» haben einen starken Bezug zur nicht-linearen logis­ tischen Regression, support vector ma­ chines und boosting zu «generalisierten additiven Modellen» und decision trees zu Regressionsbäumen. Ein Verfahren, das in beiden Disziplinen gleich viel Aufmerksamkeit erhält, sind random fo-

PRAXIS

rests. Bemerkenswert an random forests ist, dass der Erfinder des Verfahrens, Leo Breiman, ehemaliger Professor für Statistik in Berkeley, seine wegweisen­ de Arbeit (mit mehr als 5000 Zitaten seit 2001) in der Zeitschrift «Machine Learning» veröffentlichte. Das Verfahren wird seit mehr als zehn Jahren benutzt, um komplexe nicht-lineare Fragestel­ lungen, die sich den klassischen Mo­ dellen entziehen, zu beantworten. Als ein Beispiel aus einer Vielzahl anderer Anwendungen sei hier die Suche nach Interaktionen von genetischen Loci, die in einem Zusammenhang mit speziellen Erkrankungen stehen, genannt [2].

M in i-R e v ie w

fehlende Werte die grösseren Probleme, da die Daten in aller Regel eben nicht mittels gut geplanter Stichprobenver­ fahren, etwa im Rahmen randomisierter kontrollierter Studien, erhoben wurden. Dies ist auch der Grund, warum Kor­ relationen - seien sie auf Abermillio­ nen von Beobachtungen basiert - eben irreführend sein können, weil schlicht die Unabhängigkeit der Beobachtungen nicht gewährleistet ist und Verzerrungen zu erwarten sind. Entgegen der weit ver­ breiteten Irrmeinung, dass man mit sta­ tistischen Methoden Fehler im Design eines Experimentes post hoc «heraus­ rechnen» kann, gilt auch für «Big Data» die Regel «garbage in, garbage out».

« B ig D a t a »

Um zur Ausgangsfrage, was eigentlich «Big Data» ist und was Big Data in der Medizin bedeuten kann, zurückzukeh­ ren, kann man die verschiedenen Defi­ nitionen des Begriffs frei, und zugegebenermassen etwas provokativ, übersetzen: «Big Data» meint die Anwendung klas­ sischer statistischer Methoden für die Analyse grosser Mengen ungeplant und retrospektiv erhobener Beobachtungs­ daten. Es wird impliziert, dass allein die Grösse der Datensätze völlig neue Tech­ nologien (d.h. Optimierungsverfahren) für deren Analyse notwendig macht. Insbesondere befasst man sich im Be­ reich «Big Data» mit Systemen, die die Analyse von Datenmengen ermöglichen, die nicht mehr im Arbeitsspeicher eines handelsüblichen Rechners Platz finden. Dieses Problem ist jedoch alles andere als neu und seit 300 Jahren eher die Re­ gel als die Ausnahme. Die Statistik hat für genau diese Situation die Stichprobe in ihrem Methodenköcher, d.h., für den Fall, dass eine Vollerhebung unmöglich ist, zieht man einfach nur eine kleine handhabbare Stichprobe und schliesst von dieser auf die Grundgesamtheit. Dieses seit mindestens 200 Jahren be­ kannte Verfahren scheint für «Big Data» in Vergessenheit geraten zu sein. Im Fall von «Big Data» sind jedoch Ver­ zerrungen, Missspezifikationen und

M ö g lic h k e it e n g ro s s e r D a te n m e n g e n

Für eine unreflektierte Euphorie besteht also auch im Zeitalter von «Big Data» kein Grund. Man wird sich weiterhin mit Modellen und Theorien als Instru­ ment der empirischen Erkenntnis ausei­ nandersetzen müssen. Eine simple Kor­ relation wird nie auch nur für einfache Fragen Erklärung genug sein. Nichtsdestotrotz bieten Systeme zur Er­ fassung und Verwaltung grösserer Da­ tenmengen auch Vorteile und eröffnen neue Möglichkeiten der Erkenntnis, auch in der Medizin. So haben grosse Datenmengen das Potenzial, Meta-Analysen als Methode der Wissenssynthese abzulösen. Wenn aus der Publikation einer klinischen Studie nicht nur ein Effektschätzer und ein Streuungsmass abgeleitet werden kann, wie das gegen­ wärtig oft der Fall ist, sondern alle re­ levanten Patientendaten für weiter ge­ hende Analysen zur Verfügung stehen, wird es möglich sein, eine Metastudie durch Zusammenfassung aller Patien­ tendaten post hoc zu kreieren und zu analysieren. Solche Open-Data-Strategien werden von vielen medizinischen Fachzeitschriften verfolgt, wie z.B. dem «New England Journal of Medicine» [3], sodass in naher Zukunft immer mehr

Praxis 2015; 104 (3): 131-135

133

detaillierte Patienteninformationen aus wohlgeplanten klinischen Studien zur Beantwortung neuer Fragestellungen vorhanden sein werden. Eine schon heute verfügbare Metastu­ die ist die PRO-ACT-Datenbank [4], die Informationen zu mehr als 8500 an Amyotropher Lateralsklerose erkrank­ ten Patienten aus 19 Studien zusam­ menführt. Diese Datenbank wurde in der Prize4Life-Initiative [5] benutzt, um neue Biomarker zu bestimmen, die die erwartete Geschwindigkeit der Krank­ heitsprogression in einem frühen Er­ krankungsstadium beschreiben [6]. Ein anderes Beispiel ist die Analyse von Daten der European Multicenter Study about Spinal Cord Injury mittels eines Verfah­ rens des «Machine Learning», sogenann­ ten Entscheidungsbäumen [7], um eine Regel zur Patientenstratifizierung zu ent­ wickeln, die zukünftige klinische Studien bei Patienten mit Rückenmarksverlet­ zungen effizienter machen wird [8]. Auf einer mehr theoretischen Ebene wird es in speziellen Situationen möglich sein, nicht nur einfache Parameter, wie z.B. einen Mittelwert, gut zu schätzen, son­ dern auch komplexere Parameter abzu­ leiten. Ein Beispiel hierfür sind bedingte Verteilungen, also Generalisierungen von Regressionsmodellen. Die medizini­ sche Statistik ist ein Vorreiter in diesem Gebiet, weil Verfahren der Überlebens­ zeitanalyse von jeher solche bedingten Verteilungen, wie z.B. die Kaplan-MeierKurve oder das Cox-Modell, benutzen. S c h lu s s b e m e r k u n g e n

Zugespitzt kann man sagen, dass «Big Data» ein neues, aus Marketinggesichts­ punkten sehr gut gewähltes, Schlagwort in einer langen Reihe von Begriffen ist, die auf statistischen Prinzipien beru­ hende Computertechniken beschreiben. Diese vorwiegend aus den Computer­ wissenschaften kommenden Techniken leisten einen wertvollen Beitrag zur Ver­ besserung existierender statistischer Me­ thoden durch die Erforschung neuer Op­ timierungsverfahren, verschweigen aber

PRAXIS

M in i-R e v ie w

Praxis 2015; 104 (3): 131 -1 35

134

Key messages

Resume

• «Big Data» meint auf statistischen Prinzipien basierende Verfahren der Wis­ sensgewinnung aus in der Regel unstrukturierten Datenbanken. • In der Medizin versprechen insbesondere grosse Sammlungen von Patienten­ daten aus randomisierten klinischen Studien Fortschritte in der Erkenntnis­ gewinnung. • Eine enge Zusammenarbeit zwischen Medizin, Biostatistik und den Compu­ terwissenschaften ist notwendig, um valides Wissen aus solchen Datenbanken zu extrahieren.

Le terme «Big Data» est utilise depuis quelques annees pour engendrer des techniques pour la generation empirique des connaissances. Actuellement il est de plus devenu un sujet de discus­ sion dans les mass media. La medecine etant egalement une science empirique l'intention de cet article est de discuter la signification du terme Big Data ainsi que ses benefices potentiels pour la re­ cherche medicale. Mots-des: statistiques - machine learning - algorithme - modele

ihren starken Bezug zur Statistik. Das hat dazu geführt, dass der Begriff Statistik mit altbackenem Erbsenzählen assoziiert wird und nicht mit einer innovativen Wissenschaft der empirischen Erkennt­ nis. Selbstkritisch muss man festhalten, dass das Marketing der eigenen Disziplin extrem schlecht war und leider immer noch ist. Man bedenke nur, dass es mög­ lich war, den Begriff Biometrie, der seit 1945 als Name einer der führenden Zeit­ schriften des Fachs und Name der inter­ nationalen biometrischen Gesellschaft etabliert war, für Fingerabdruck- und Irisscanner zu vereinnahmen. Ein weiterer Grund für die oft abschätzi­ ge Sichtweise auf statistische Methoden und Herangehensweisen ist die Tatsache, dass sich insbesondere Medizinstatisti­ ker oft in der Rolle des Wissenschafts­ polizisten wiederfinden, die in Studien­ komitees streng auf die Einhaltung etablierter Standards (man denke nur an Diskussionen zu Fallzahlplanungen oder an das p

["Big data" - large data, a lot of knowledge?].

Le terme «Big Data» est utilisé depuis quelques années pour engendrer des techniques pour la génération empirique des connaissances. Actuellement il e...
3MB Sizes 3 Downloads 11 Views