Leitthema Bundesgesundheitsbl 2015 · 58:838–843 DOI 10.1007/s00103-015-2188-4 Online publiziert: 16. Juni 2015 © Springer-Verlag Berlin Heidelberg 2015

Markus Zwick1,2 1 Goethe-Universität Frankfurt, Frankfurt am Main, Deutschland 2 Statistisches Amt der Europäischen Union (Eurostat), Europäische Kommission, Luxembourg, Luxembourg

Big Data in der amtlichen Statistik Mit Big Data verändern sich die Geschäftsgrundlagen der amtlichen Statistik in einem Maße, wie es dies bisher noch nicht gegeben hat. Amtliche Statistik hat sich auch in der Vergangenheit laufend verändert, zum einen weil sich Informationsbedarfe regelmäßig wandeln, zum anderen weil sich technische sowie methodische Anwendungen weiterentwickeln. So hat die Etablierung der Informationstechnologie die statistische Produktionsweise erheblich beeinflusst, und die nunmehr intensivere Nutzung von administrativen Daten hat auch methodische Verfahrensweisen verändert. Big Data geht aber deutlich über diese Veränderungen hinaus. Neue Möglichkeiten zur statistischen Abbildung realer Gegebenheiten zu nutzen ist eine Stärke der amtlichen Statistik. So haben Stichproben relativ schnell amtliche Vollerhebungen – zuerst in den angelsächsischen Ländern, nach dem zweiten Weltkrieg auch in Deutschland – zunächst ergänzt und dann zumeist abgelöst. Administrative Daten sind heute elementarer Bestandteil vieler amtlicher Statistiken. Die letzte Volkszählung, traditionell auch heute noch in vielen Ländern eine Vollerhebung, war in Deutschland mit dem Zensus 2011 eine Kombination aus der Nutzung von Verwaltungs- und Stichprobendaten. Die neuen Datenbestände, die mit dem Begriff „Big Data“ beschrieben werden, sind aber nicht ohne weiteres in die Produktion von amtlichen Statistiken zu integrieren. Ein gewichtiger, hier zu klärender Punkt ist die Qualität dieser Daten. Weiter tangieren viele dieser neuen Datenbestän­ de datenschutzrechtliche Fragen. Darüber hinaus – und dies als vollständiges neues Thema – sind häufig nichtamtliche, oftmals international tätige Institutionen Eig­ entümer dieser Daten. Ein weiterer The-

menbereich, mit dem sich amtliche Statis­ tik auseinanderzusetzen hat, ist die nun vorhandene Wettbewerbssituation. Mit Big Data sind auch neue, private Datenproduzenten, und diese – wie bei der Berechnung von Inflationsraten in Kernbereichen der amtlichen Statistik – konkurrierend, am Informationsmarkt tätig. Die folgenden Ausführungen geben ei­ nen Überblick über den derzeitigen Diskussionstand zu Big Data in der amtlichen Statistik, in Deutschland sowie innerhalb der Europäischen Union (EU). Insgesamt ist die Diskussion noch sehr allgemein und differenziert bisher nur vereinzelt hinsichtlich der Statistiken, wie z. B. mit Blick auf die Verwendung von Big Da­ ta für die Tourismusstatistik, für die Preisoder für die Gesundheitsstatistiken. Innerhalb des Gesundheitsbereichs hat vor allen die Diskussion um Google Flu Aufmerksamkeit gefunden [1]. Aufgrund der derzeit noch eher allgemeinen Auseinandersetzung mit dem Thema, wird im Folgenden nicht näher auf die Verwendung von Big Data innerhalb von Gesundheitsstatistiken eingegangen (hierzu siehe z. B. Herland et al. [2]). Die Ausführungen im Abschnitt „Big Data – Definitionsversuche“ versuchen den Begriff „Big Data“ aus Sicht der amtli­ chen Statistik ein wenig zu konkretisieren. Der nächste Abschnitt erläutert den Status quo der gegenwärtigen Diskussionen über die Möglichkeiten, diese neuen Da­ tenbeständen, die mit Big Data umschrieben werden, in amtliche Statistiken zu integrieren. Dabei gehen die Ausführungen von der Grundsatzentscheidung der Leiterinnen und Leiter der nationalen statistischen Ämter und Eurostat aus, Big Da­ ta für amtliche Statistiken zu nutzen. Die Ausführungen thematisieren daher das

838 |  Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015

„Wie“ und nicht das „Ob“ einer Nutzung der neuen potenziellen Datenquellen. Der vorletzte Abschnitt beschreibt die vorgesehene und mit dem „Big Data Roadmap and Action Plan 1.0“ beschlossene Strategie, innerhalb des Europäischen Statistischen Systems Big Data absehbar für europäische Gemeinschaftsstatistiken zu verwenden. Ein Ausblick beendet diesen Übersichtsartikel.

Big Data – Definitionsversuche Big Data sind begrifflich ähnlich nebulös wie die Cloud, in der sich die meisten dieser Daten befinden. Üblicherweise beginnen Aufsätze zu Big Data mit einer Definition, und diese erfolgt in der Regel über die drei V (Volume, Velocity und Variety) [3–5]. Die Größe der Datenbestände (Volume) meint hierbei die Anzahl der Merkmale (variables) sowie Merkmalsträger (units). Größe wird dabei häufig umschrieben als zu groß, um eine Datenmenge problemlos von einem Ort zu einem anderen zu verlagern. Mit Velocity wird die Geschwindigkeit benannt, mit der im Zeitalter von Big Data Daten entstehen, genutzt und übermittelt werden. Variety beschreibt innerhalb der „3 V’s of Big Data“ die Unterschiedlichkeit, mit der Big Data als strukturiert, unstrukturiert, Text oder Bilddateien vorliegen. Keine der bisher vorgelegten Definitionen ist wirklich abschließend überzeugend, denn Big Data haben sehr viele Dimensionen und verändern sich noch fortwährend. In der Literatur findet sich die Unterscheidung zwischen primären und sekundären Datenbeständen.1 Primäre Statistikquellen umfassen Daten, die für eine oder 1 

Z. B. Gabler Wirtschaftslexikon.

mehrere Analysefragestellungen speziell erhoben werden. Hierunter fallen Stichproben, aber auch Vollerhebungen wie Volkszählungen, wenn diese ausschließlich über Befragungen erstellt werden. Sekundäre Daten werden primär für einen anderen Zweck erhoben und sekundär für Statistiken genutzt. Hierbei handelt es sich in der Regel um Verwaltungsdaten.2 Beispiele sind sämtliche amtlichen Steuerstatistiken. Die Daten werden primär von den Finanzverwaltungen zur Feststellung der Steuerschuld erhoben und im Nachgang statistisch aufbereitet und genutzt. Ein weiteres Beispiel sind die Daten der Einwohnermeldeämter, die insbesondere in die Bevölkerungsstatistiken eingehen. Darüber hinaus werden Mischformen immer wichtiger, wie z. B. beim Zensus 2011. Diese Statistik wurde auf der Grundlage einer Haushaltsstichprobe, einer Voller­ hebung bei Haus- und Wohnungseigentümern sowie anhand von Daten der Einwohnermeldeämter und der Bundesagentur für Arbeit modellunterstützt erstellt.3 Datenbestände, die nicht zu den primären und sekundären Datenbeständen gehören, können aus dieser Sicht als tertiäre Datenbestände aufgefasst werden und werden mit Big Data umschrieben. Bild, Text und numerische Informationen stehen hierbei erst einmal unverbunden nebeneinander. Es ist derzeit nicht absehbar, was künftig noch alles über Daten erschlossen werden kann. Das sogenannte „Internet der Dinge“, als Beispiel die Kommunikation mit und zwischen Haushaltsgeräten oder zwischen Fahrzeugen, entsteht ja gerade erst. Absehbar ist, dass bestimmte Variablen bzw. Merkmale erheblich an Bedeutung gewonnen haben und weiter gewinnen werden. Dies sind Informationen über die Zeit und über den Ort und hier insbesondere geocodierte Regionalangaben. Diese Variablen sind entscheidende Identifikatoren, um heterogene Datenbestände zusammenzuführen, da diese Merkmale in

2 

Mit dem „Gesetz über die Verwendung von Verwaltungsdaten für Zwecke der Wirtschaftsstatistiken (Verwaltungsdatenverwendungsgesetz – VwDVG)“ seit dem 4. November 2010 auch detailliert gesetzlich geregelt. 3  Zum Zensus 2011 sowie zur Zensusmethodik siehe [6].

der Regel in den meisten Datenbeständen vorhanden sind. Statistiker haben den Hang, „Dinge“ zu klassifizieren. Dies ist für viele Bereiche des täglichen Lebens unumgänglich, wenn diese statistisch abgebildet werden sollen: Zur quantitativen Darstellung, welche Produkte in einer Volkswirtschaft produziert werden, ist eine Güterklassifikation notwendig. Soll die Entwicklung der Beschäftigten in den Unternehmen quantifiziert werden, sind Berufswie Wirtschaftszweigklassifikationen erforderlich. Daher ist es nicht verwunderlich, dass eine Arbeitsgruppe innerhalb der United Nations Economic Commission for Europe (UNECE) 2013 eine erste Klassifikation zum Thema „Big Data“ erarbeitet hat. Diese Klassifikation unterscheidet die folgenden drei Hauptbereiche von Big Data (vgl. [7]): 1. Daten aus sozialen Netzwerken (personengenerierte Daten) mit neun Untergruppen, 2. Geschäftsdaten (prozessgenerierte Daten) mit fünf Untergruppen, 3. Internet der Dinge (maschinengenerierte Daten) mit zehn Untergruppen. Diese Klassifikation ist eine hilfreiche Strukturierung, die es den verschiedenen Statistikbereichen in den europäischen Ämtern erlaubt, ihre jeweiligen Statistiken hinsichtlich der Nutzung von Big Data zu überprüfen.

Big Data in der amtlichen Statistik Ausgehend von den Regelungen des Bundestatistikgesetzes ist es unumgänglich, dass sich die statistischen Ämter des Bundes und der Länder eingehend mit neuen potenziellen Datenquellen auseinanderzusetzen haben: Die Statistik für Bundeszwecke (Bundesstatistik) hat im föderativ gegliederten Gesamtsystem der amtlichen Statistik die Aufgabe, laufend Daten über Massenerscheinungen zu erheben, zu sammeln, aufzubereiten, darzustellen und zu analysieren.4 4 

§ 1 Satz 1 Gesetz über die Statistik für Bundeszwecke (Bundesstatistikgesetz – BStatG).

Sie gewinnt die Daten unter Verwendung wissenschaftlicher Erkenntnisse und unter Einsatz der jeweils sachgerechten Methoden und Informationstechniken.5 Darüber hinaus gebieten auch die Grundsätze des European Code of Practice6 die intensive Überprüfung der Verfahrensweisen amtlicher Statistik bei einem Wandel der Informationen und der Informationstechnologie. Diese Grundsätze garantieren eine hohe Qualität amtlicher Daten im Europäischen Statistischen System (ESS).7 Insbesondere Grundsatz 9 „Vermeidung einer übermäßigen Belastung der Auskunftgebenden“ sowie Grundsatz 10 „Wirtschaftlichkeit“ führen die statistischen Ämter dazu, die mit Big Data umschriebenen Datenbestände auf ihre Verwendbarkeit zu überprüfen. Auf der anderen Seite benennen die Grundätze 4 „Verpflichtung zur Qualität“ und 5 „Statistische Geheimhaltung“ die Gründe, warum eine solche Überprüfung sehr detailliert zu erfolgen hat. Somit stellt sich für die amtliche Statistik nicht die Frage, ob Big Data künftig für amtliche Statistik genutzt werden sollen. Vielmehr lautet die Frage, wie und in welcher Form Big Data für amtliche Statistiken genutzt werden.

Was verändert Big Data in der amtlichen Statistik? Es wäre verwegen zu meinen, diese Frage könnte derzeit beantwortet werden. Die Komplexität und die sich ständig erweiternden Möglichkeiten von Big Data lassen es nicht zu, die Konsequenzen dieser Informationsrevolution selbst mittelfristig zu prognostizieren. Aber es ist schon heu5 

§ 1 Satz 3 BStatG. Der European Code of Practice basiert auf 15 Grundsätzen für den institutionellen Rahmen, die statistischen Prozesse und die statistischen Produkte und ist Grundlage der Statistikproduktion innerhalb des Europäischen Statistischen Systems (ESS), siehe [8]. 7  Das ESS ist eine Partnerschaft zwischen der statistischen Stelle der Gemeinschaft, d. h. der Kommission (Eurostat), den nationalen statistischen Ämtern (NSÄ) und anderen einzelstaatlichen Stellen, die in den einzelnen Mitgliedstaaten für die Entwicklung, Erstellung und Verbreitung europäischer Statistiken zuständig sind, siehe [9]. 6 

Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015 

| 839

Zusammenfassung · Abstract te absehbar, auf welche Bereiche Big Data einen erheblichen Einfluss ausübt und immer stärker ausüben wird. Dieser betrifft natürlich zuallererst die Produktionsweise amtlicher Statistiken. Mit Klärung von Qualitäts- und rechtlichen Fragen werden immer mehr tertiäre Datenbestände in die Statistikproduktion Einzug halten und damit einen Kernansatz angewandter Statistik verändern, das Adäquationsproblem [10]. Mittels der Adäquation wird im statistischen Prozess ein reales in ein formales Problem transformiert und so einer Quantifizierbarkeit zugeführt. Zum Beispiel wird Arbeitslosigkeit als die Unterauslastung des Produktionsfaktors Arbeit mit dem Erwerbslosenkonzept der International Labour Organization (ILO)8 operationalisiert und durch bestimmte Fragen im Mikrozensus dann statistisch erfasst. Dies in der Reihenfolge: theoretisches Konzept, Operationalisierung und Messung durch Datenerfassung. Mit Big Data wird künftig die Datenerfassung vor der Operationalisierung stattfinden, ein Prozess, der schon mit den Verwaltungsdaten, den Sekundärdaten begonnen hat. In einer Welt, in der immer mehr Daten verfügbar sind, wird es auf immer weniger Verständnis bei Auskunftgebenden und Steuerzahlern stoßen, zusätzliche Erhebungen durchzuführen. Die Kunst des Statistikers wird daher künftig darin liegen, das Beste aus vorhandenen Daten zu machen und nicht die besten Daten für ein Problem zu generieren. Die Anwendungen werden daher neben der Erhebungsmethodik insbesondere auch die modellgestützte Statistik umfassen. Im Bereich der Verwaltungsdaten liegen mit dem Zensus 2011 und der Einkommensteuerstatistik erste Beispiele vor. Die Bevölkerungszahl des Zensus 2011 ist modellunterstützt, überwiegend mit vorhandenen Zahlen ermittelt worden. Im Rahmen der Armuts- und Reichtumsberichterstattung der Bunderegierung wurden Einkommensteuerstatistiken verschiedener Jahre zur Analyse der Einkommensverteilung herangezogen. Die Einkommensbegriffe des Einkommensteu8 

Zum Erwerbslosenkonzept der International Labour Organization (ILO) vgl. z. B. [11].

Bundesgesundheitsbl 2015 · 58:838–843  DOI 10.1007/s00103-015-2188-4 © Springer-Verlag Berlin Heidelberg 2015 M. Zwick

Big Data in der amtlichen Statistik Zusammenfassung Big Data werden die amtliche Statistik in den kommenden Jahren verändern. Dies wird nahezu alle Bereiche der amtlichen Statistikerstellung umfassen. Künftig wird die Aufgabe des Amtsstatistikers insbesondere darin liegen, die richtigen, schon vorhandenen Da­ tenbestände zu identifizieren und in adäquater Weise zu nutzen, und weniger darin, für eine Problemstellung neue Daten zu produzieren. Bis dahin sind aber viele Fragen und Probleme zu lösen. Angefangen von der Qualität der Daten sind insbesondere Fragen des Datenschutzes, aber auch zum Eigentum und zur nachhaltigen Verfügbarkeit der Daten zu beantworten. Auch werden die für einen amtlichen Statistiker benötigten Fertigkeiten in 10 Jahren deutlich anders sein als heute, was die statistische Ausbildung verändern

und neue Herausforderungen an die permanente Weiterbildung der vorhandenen Mitar­ beiter stellen wird. Mit der Big Data Roadmap und dem Big Data Action Plan haben die statistischen Ämter der Europäischen Union ei­ ne konkrete Umsetzungsstrategie zur Integration der neuen Datenbestände, die mit Big Data umschrieben werden, beschlossen. Dies ist ein erster wichtiger Schritt und wird auch national die Diskussion über die Verwendung von Big Data in amtlichen Statistiken innerhalb der statistischen Ämter des Bundes und der Länder nachhaltig beeinflussen. Schlüsselwörter Big Data · Europäisches Statistisches System · Datenqualität · Datenschutz · Statistische Aus- und Weiterbildung

Big data in official statistics Abstract The concept of “big data” stands to change the face of official statistics over the coming years, having an impact on almost all aspects of data production. The tasks of future statisticians will not necessarily be to produce new data, but rather to identify and make use of existing data to adequately describe social and economic phenomena. Until big data can be used correctly in official statistics, a lot of questions need to be answered and problems solved: the quality of data, data protection, privacy, and the sustainable availability are some of the more pressing issues to be addressed. The essential skills of official statisticians will undoubtedly change, and this implies a number of challenges to be faced by

ergesetzes sind aber nur sehr bedingt mit den verfügbaren Einkommen bzw. Äquivalenzeinkommen aus Erhebungen, die üblicherweise für solche Betrachtungen herangezogen werden, vergleichbar. Hier fanden adäquate empirische Modelle Anwendungen, die aus den vorhandenen Daten die Merkmale generierten, die dann in die Analysen eingingen [12]. Diese Verfahrensweisen werden sich mit der Anwendung tertiärer Datenbestände deutlich verstärken. Insbesondere werden auch sogenannte blended data, also die gleichzeitige Nutzung verschiedenster Datenquellen für eine Statis-

840 |  Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015

statistical education systems, in universities, and inside the statistical offices. The national statistical offices of the European Union have concluded a concrete strategy for exploring the possibilities of big data for official statistics, by means of the Big Data Roadmap and Action Plan 1.0. This is an important first step and will have a significant influence on implementing the concept of big data inside the statistical offices of Germany. Keywords Big data · European Statistical System · Data quality · Data protection · Statistical education

tik, mehr und mehr an Bedeutung gewinnen. So könnten bspw. Angaben in Haushaltsstatistiken mittels Mobilfunkdaten, geocodierten Umwelt- und Verkehrsin­ formationen, Satellitenabbildungen oder aber auch durch intelligente Stromzähler (smart meter) ergänzt bzw. ersetzt werden. Auch die andere Richtung, dass ein einzelner tertiärer Datenbestand für verschiedene Erhebungen genutzt wird, wird stärker Anwendung finden. So können z. B. Mobilfunkdaten in der Tourismusstatistik, den Haushaltsstatistiken, in der Mi-

grationsstatistik oder auch in Verkehrs­ statistiken sinnvoll Einsatz finden. Neben der Datenproduktion hat sich auch die Marktposition der amtlichen Statistik verändert und wird sich weiter verändern. Das Monopol der amtlichen Statistik wird von neuen Anbietern am Informationsmarkt bestritten. Ein Beispiel ist die Preisstatistik, ein Kerngeschäft amtlicher Statistik. Mit dem ‚Billion Prices Project‘ arbeitet das Massachusetts Institute of Technology (MIT) an Verfahren zur webbasierten Bestimmung von Preisindizes [13]. Ein kommerzielles Ergebnis dieser Forschung sind die Angaben des Unternehmens PriceStats zu täglichen Inflationsraten für über 70 Länder. (14) Die Ergebnisse privater Informationsanbieter entsprechen nicht immer den Qualitätsanforderungen, mit denen amtliche Statistiken produziert werden, sind aber oftmals schneller verfügbar. Ein wenig fatal wirkt es dann, wenn die theoretisch und empirisch wohlfundierten amtlichen Ergebnisse einige Zeit später die schnellen, oft auf Data Mining beruhenden Ergebnisse der privaten Anbieter nur mit geringen Abständen mehr oder weniger bestätigen. Die zeitnahen Ergebnisse von PriceStats und die amtlichen Ergebnisse des Office of Price and Living Conditions in den USA sind ein Beispiel in diese Richtung [15]. In einer weiteren Wettbewerbssituation befinden sich die statistischen Ämter mit Blick auf den Arbeitsmarkt. Gut ausgebildete, junge Akademiker werden immer seltener den Weg in die statistischen Ämter finden, wenn ihre Fertigkeiten am Informationsmarkt deutlich besser entlohnt werden als im öffentlichen Dienst. Die demografische Entwicklung in Deutschland dürfte diese Problematik künftig noch deutlich verschärfen. Die amtliche Statistik versucht hier durch spezielle Weiterbildungsmaßnahmen sowie Hochschulkooperationen, zum Beispiel mit dem „European Master in Official Statistics (EMOS)“ [16], entgegenzuwirken. EMOS bietet vor allem die Möglichkeit, frühzeitig, das heißt durch aktive Teilnahme der Institutionen der amtlichen Statistik an der Statistikausbildung, das Fertigkeitenprofil der Absolventen mit zu gestalten. Es soll aber nicht nur künftige Amtsstatistiker aus- und wei-

terbilden, sondern ist auch im Sinne von „Statistical Literacy“ [17] ein Beitrag, um Nutzer amtlicher Statistiken schon in der Ausbildung auf ihre spätere Arbeit vorzubereiten. Um Big Data erfolgreich in amtliche Statistiken zu integrieren, sind vielfältige Fachkenntnisse notwendig. Die benötigten Fertigkeiten werden sich nicht in einer Person finden, das heißt, künftig wird eine noch intensivere Arbeitsteilung in der amtlichen Statistikproduktion erforderlich sein. Der Data Scientist [18, 19] wird ein wichtiger Mitarbeiter sein, aber auch Methodiker, Juristen sowie Verwaltungsfachleute werden elementare Aufgaben übernehmen.

Koordinierte Verfahrensweisen der europäischen statistischen Ämter Die Integration von Big Data in die Produktion von amtlichen Statistiken wird nicht isoliert in den Europäischen Mitgliedsstaaten erfolgen. Schon heute basieren die meisten national durchgeführten amtlichen Statistiken auf europäischen Verordnungen und sind innerhalb des ESS harmonisiert. So sind Big Data insbesondere auf europäischer Ebene derzeit ein von den statistischen Ämtern intensiv diskutiertes Thema. Einige nationale statistische Ämter haben auch schon erste diesbezügliche Studien vorgelegt. Besonders innovativ sind hier derzeit die Ämter aus den Niederlanden und Italien. Das Statistische Amt der Niederlande (CBS) präsentierte 2013 ein erstes Papier mit Ergebnissen basierend auf Machbarkeitsstudien zu Nutzung neuer Datenquellen [3]. Zum einen wurden Daten ausgewertet, die künftig Verkehr- und Transportstatistiken unterstützen könnten. Hierzu wurden Daten herangezogen, die an 12622 Messstationen an niederländischen Straßen anfallen. An diesen Stellen werden Fahrzeuge mit ihrer Geschwindigkeit und Länge erfasst. Eine weitere Studie wertete Social-Media-Daten aus. In ihr wurden positiv sowie negativ besetzte Begrifflichkeiten erfasst, um auf Befindlichkeiten von sozialen Gruppen zu unterschiedlichen Zeitpunkten zu schließen. Weitere europäische Ämter nutzen auch schon heute web scraping, um die Erstellung von Preisstatistiken zu unter-

stützen. Auch werden in einigen Ländern Mobilfunksignale für die Tourismusstatistik sowie für die Analyse des Pendlerverhaltens herangezogen. Die Erkenntnisse aus diesen leider noch nicht publizierten Einzelstudien lassen sich aber europaweit meist nur eingeschränkt nutzen, da insbesondere die Nutzung von Mobilfunksignalen in Europa sehr unterschiedlich gesetzlich geregelt ist (ganz abgesehen von der Frage zum Eigentum dieser Daten). Insgesamt lässt sich festhalten, dass kein Amt innerhalb des ESS die Integration der neuen tertiären Datenbestände in die laufende Statistikproduktion allein wird leisten können. Mit der NTTS-Tagung 2013 in Brüssel,9 auf der sehr intensiv über Big Data und die Nutzung neuer Datenbestände in der amtlichen Statistik diskutiert wurde, startete eine stärker europaweit koordinierte Herangehensweise an das Thema. Im Sommer 2013 präsentierte die Arbeitsgruppe „Modernization of Statistical Production and Services“ der United Nations Economic Commission for Europe (UNECE) das Papier „What does ‚Big Data‘ mean for Official Statistics?“, in dem die Auswirkungen von Big Data auf die amtliche Datenproduktion breiter untersucht wurden [21]. Die UNECE betreibt seitdem auch eine offen zugängliche Website zum Thema „Big Data in Official Statistics“ [22]. Die Diskussionen in den UNECE-Arbeitsgruppen sowie auf der Website sind breiter als innerhalb des ESS. In den Gruppen der UNECE arbeiten auch Fachleute aus Australien, Kanada, den USA sowie aus Russland und aus der Gemeinschaft Unabhängiger Staaten mit. Innerhalb des ESS war das „Scheveningen Memorandum Big Data and Official Statistics“ auf der „Directors General of the National Statistical Institutes (DGINS) Conference“ im Herbst 2013 ein wichtiger Schritt zur gemeinsamen Herangehensweise der beteiligten statistischen Ämter [23]. Mit diesem Memorandum beschlossen die Leiterinnen und Leiter der nationalen statistischen Ämter u. a. folgende Leitlinien:

9 

Konzeptpapiere zur Konferenz „New Techniques and Technologies for Statistics“ 2013 siehe [20].

Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015 

| 841

Leitthema 55acknowledge that Big Data represents new opportunities and challenges for Official Statistics; 55encourage the European Statistical System and its partners to effectively examine the potential of Big Data sources; 55agree on the importance of following up the implementation of this memorandum by adopting an ESS action plan and roadmap by mid-2014. [23] Ein wichtiger Meilenstein innerhalb des ESS war dann im Jahr 2014 die Einrichtung einer Task Force, die u. a. ein „Big Data Roadmap and Action Plan 1.0“ entwickelt hat, sowie die Integration dieser Roadmap in die ESS-Vision 2020.10 Die Task Force Big Data publiziert ihre Ergebnisse laufend auf ihrer Internetseite [25]. Einen Überblick über den derzeitigen Stand von Big Data in der amtlichen Statistik gab die Konferenz „Modernization of European Official Statistics, ESS Big Data Event“ im April 2014 in Rom. Hier diskutierten europäische Statistiker sehr breit über das Thema. Die finalen Ergebnisse dieser Konferenz wurden zusammengefasst und sind veröffentlicht [26]. Auf der diesjährigen NTTS 2015 waren Big Data das beherrschende Thema [27]. Neben visionären Betrachtungen [28] gab es eine ganze Reihe von Vorträgen, dies sich sehr konkret mit der Nutzung von Big Data in amtlichen Statistiken auseinandersetzten. Hervorzuheben ist hier der Beitrag der Big-Data-Arbeitsgruppe von Eurostat, die einen Akkreditierungsprozess präsentierte, mit dem die verschiedenen Fachstatistiken neue Datenquellen auf ihre Anwendbarkeit für ihre jeweiligen Statistiken prüfen können [29].

Big Data Roadmap in der amtlichen Statistik Mit der/dem „Big Data Roadmap and Action Plan 1.0“ haben die Leiterinnen und Leiter der statistischen Ämter im ESS auf ihrer Sitzung im Herbst 2014 die Vorgehensweise zur Integration von Big Data in amtliche Statistiken beschlossen [30]. 10  Die ESS Vision 2020 ist die strategische Ausrichtung des ESS für den Zeitraum 2014 bis 2020, vgl. [24].

Die Roadmap unterteilt die notwendigen Aktivitäten in drei Zeitperspektiven: 55langfristige Vision (nach 2020), 55mittlerer Ziele (bis 2020) und 55kurzfristig umsetzbare Aktivitäten (bis Ende 2016).

55IT-Infrastruktur, 55Ausbildung, 55Erfahrungsaustausch, 55Rechtsfragen sowie die 55Steuerung und Leitung der Prozesses (Governance).

Zielsetzungen

Im Rahmen der politischen Maßnahmen ist es insbesondere Ziel, dass die amtliche Statistik in die strategischen Big-Data-Ziele der Europäischen Union sowie in die einzelstaatlichen Pläne aufgenommen wird. Hinsichtlich der Kommunikation sollen Auskunftgebende sowie Nutzer der amtlichen Statistik umfassend über die Ziele sowie die Aktivitäten der statistischen Ämter informiert werden, Big Data für amtliche Statistiken zu nutzen. Hierzu sollen Grundsätze und ethische Regeln zur Nutzung von Big Data durch die amtliche Statistik entwickelt werden. Im Rahmen der statistischen Weiterbildung sollen insbesondere Schlüsselqualifikationen zur Nutzung von Big Data identifiziert und Kooperationen wie zum Beispiel EMOS weiter entwickelt werden. Der Rahmen des vorliegenden Übersichtsartikels ist leider zu eng, um auf die einzelnen Maßnahmen im Detail einzugehen, hier sei auf die zitierten Literaturquellen verwiesen.

In der langfristigen Vision sind die tertiären Datenbestände in die Statistikproduktion integriert und die nationalen und europäischen Rechtsrahmen den Nutzungen entsprechend angepasst. Weiter sollen Eigentums- und Nutzungsfragen derart geklärt sein, dass ein reibungsloser Zugang zu den Daten gewährleistet ist. Ferner stehen Mitarbeiter, die die erforderlichen Kenntnisse und Fähigkeiten zur Nutzung von Big Data besitzen, innerhalb des ESS im benötigten Umfang zu Verfügung. In der mittleren Frist sollen erste Machbarkeitsstudien, mit denen die Integration neuer Datenbestände in laufende Statistiken erprobt wird, abgeschlossen sein. Die IT-Infrastruktur soll in diesem Zeitraum an die neuen Anforderungen angepasst werden. Methodische sowie Qualitätsfragen sollen im Zeitraum bis 2020 beantwortet werden. Darüber hinaus sind data science Fertigkeiten in die Ausbildungspläne an den Hochschulen sowie in die internen Weiterbildungsverfahren integriert. In der kurzen Frist bis 2016 ist es Ziel, die amtliche Statistik in die Big-Data-Strategieziele der Europäischen Kommission einzubetten. Neue Datenbestände sollen auf ihre potenziellen Verwendungsmöglichkeiten, das heißt mit Blick auf ihre Verfügbarkeit, Qualität sowie hinsichtlich Rechtsfragen, für verschiedene Anwendungen überprüft werden.

Big Data Action Plan 1.0 Für die kurze Frist wurde eine ganze Reihe sehr konkreter Maßnahmen beschlossen. Die kurzfristig anzugehenden Themenbereiche umfassen: 55Politische Maßnahmen, 55Kommunikation, 55Big Data Ressourcen, 55Pilotprojekte, 55Methoden, 55Datenqualität,

842 |  Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015

Pilotprojekte Der Big Data Action Plan sieht konkret vor, mit sechs Pilotprojekten zu beginnen. Unter Berücksichtigung begrenzter Ressourcen sollen drei dieser Projekts im Jahr 2015 und drei weitere Projekte im Jahr 2016 starten. Die europaweit auszuschreibenden Projekte sollen ein breiteres Spektrum an Fragestellungen abdecken. Insbesondere sollen folgende Aspekte mit den Pilotprojekten untersucht werden: 55Datenquellen: 55Datenzugang, europäische Dimension, Datenverknüpfung, Nachhaltigkeit der Datenquellen 55Mögliche statistische Produkte: 55Relevanz auf europäischer, nationaler und regionaler Ebene, Verwendungsbreite der Daten, tertiäre Datenquellen als Ersatz oder Ergänzung vorhandener Datenquellen, Qualität 55Produktionsprozess:

55Datenschutz und Geheimhaltung, Methodik, IT-Infrastruktur, Rechtsfragen Die Task Force Big Data wurde damit beauftragt, die Projektrahmen zu konkretisieren und die ersten Ausschreibungen 2015 auf den Weg zu bringen.

Ausblick Als derzeitiges Fazit kann festgehalten werden, dass das Thema „Big Data“ im Rahmen der europäischen amtlichen Statistik einen sehr hohen Stellenwert eingenommen hat. Es wurde mit der Big Data Roadmap und dem Big Data Action Plan eine konkrete Herangehensweise entworfen und ihre Umsetzung von den Leiterinnen und Leitern der statistischen Ämter des ESS beschlossen. Ausgehend von den europäischen Aktivitäten wird das Thema auch die statistischen Ämter des Bundes und der Länder stärker erreichen. Hier wird es nun notwendig sein, die Ergebnisse, die innerhalb des ESS erarbeitet werden, in die deutsche föderale Statistikproduktion zu übersetzten. Es sind also für Statistiker spannende Zeiten.

Korrespondenzadresse Prof. Dr. M. Zwick Goethe-Universität Frankfurt, Grüneburgplatz 1, 60323 Frankfurt am Main [email protected]; markus.zwick@ ec.europa.eu

Einhaltung ethischer Richtlinien Interessenkonflikt.  M. Zwick weist auf folgende Beziehungen hin: Seit 1996 ist er Mitarbeiter in der amtlichen Statistik. Bis 2012 war er als Bundesbeamter im Statistischen Bundesamt tätig, seit 2012 ist er als Nationaler Experte an das Europäische Statistische Amt (Eurostat) abgeordnet. Die im Beitrag dargestellten Positionen sind seine persönliche Sicht als Honorarprofessor an der Goethe Universität Frankfurt. Dieser Beitrag beinhaltet keine Studien an Menschen oder Tieren.

Literatur   1. Lazer D, Kennedy R, King G, Vespignani A (2014) The parable of google flu: traps in big data analysis. Sci Mag 343(6176)1203–1205. doi:10.1126/science.1248506

  2. Herland M, Taghi M, Wald K, Wald R (2014) A review of data mining using big data in health informatics. J Big Data 1:2. doi:10.1186/2196-1115-1-2   3. Daas PJH, Puts MJ, Buelens B, van den Hurk PAM (2013) Big Data and Official Statistics. Paper for the NTTS 2013. http://www.cros-portal.eu/sites/default/files/NTTS 2013fullPaper_76.pdf. Zugegriffen: 9. März 2015   4. OECD (2013) Mapping the policy issues raised by „Big Data“. http://www.oecd.org/officialdocuments/publicdisplaydocumentpdf/?cote=DSTI/ ICCP(2012)9/FINAL…docLanguage=En. Zugegriffen: 9. März 2015   5. United Nation Global Pulse (2012) White paper: Big Data for development: opportunities … challenges. http://unglobalpulse.org/BigDataforDevWhitePaper. Zugegriffen: 9. März 2015   6. Statistisches Bundesamt (2014) Zensus 2011. http:// www.zensus2011.de. Zugegriffen: 9. Juni 2015   7. UNECE (2013) Classification of types of Big Data. http://www1.unece.org/stat/platform/display/bigdata/Classification+of+Types+of+Big+Data. Zugegriffen: 9. Juni 2015   8. Eurostat (2011) European statistics code of practice. http://ec.europa.eu/eurostat/web/quality/european-statistics-code-of-practice. Zugegriffen: 9. Juni 2015   9. Eurostat (o. J.) Overview. http://ec.europa.eu/eurostat/web/european-statistical-system/overview. Zugegriffen: 9. Juni 2015 10. Grohmann H (1985) Vom theoretischen Konstrukt zum statistischen Begriff – Das Adäquationsproblem, Allgemeines Statistisches Archiv. Bd. 69 11. Statistisches Bundesamt (o. J.) Erwerbslose ILOKonzept. https://www.destatis.de/DE/ZahlenFakten/GesamtwirtschaftUmwelt/Arbeitsmarkt/Erwerbslosigkeit/Erwerbslosigkeit.html. Zugegriffen: 9. Juni 2015 12. Merz J, Hirschel D, Zwick M (2005) Struktur und Verteilung hoher Einkommen – Mikroanalysen auf der Basis der Einkommensteuerstatistik, Gutachten für den zweiten Armuts- und Reichtumsbericht der Bundesregierung. Bundesministerium für Gesundheit und Soziale Sicherung, Berlin 13. Massachusetts Institute of Technology (MIT) (o. J.) The Billion Prices Project @ MIT. http://bpp.mit. edu/. Zugegriffen: 9. Juni 2015 14. PriceStats (o. J.) http://www.pricestats.com/. Zugegriffen: 9. Juni 2015 15. Horrigan MW (2013) Big Data: a perspective from the BLS. AMSTATNEWS, The Membership Magazine of the American Statistical Association. http:// magazine.amstat.org/blog/2013/01/01/sci-policyjan2013/. Zugegriffen: 10. März 2015 16. Eurostat; Collaboration in Research and Methodology for Official Statistics (o. J.) EMOS. http://www. cros-portal.eu/content/emos. Zugegriffen: 9. Juni 2015 17. International Association for Statistical Education (IASE); International Statistic Institute (ISIS) (o. J.) International Statistical Literacy Project. http://iase-web.org/islp/. Zugegriffen: 9. Juni 2015 18. Davenport TH, Patil DJ (2012) Data scientist: the sexiest job of the 21st century. Harv Bus Rev 90:70–76 19. Zwick M (2013) Big Data, Data Scientists und amtliche Statistik. In: Hirschel D, Paic P, Zwick M (Hrsg) Daten in der wirtschaftswissenschaftlichen Forschung, Festschrift zum 65. Geburtstag von Prof. Dr. Joachim Merz. Springer Gabler Research, Berlin

20. NTTS – Conferences on New Techniques and Technologies for Statistics (2013) Proceedings. doi 10.2901/Eurostat.C2013.001. http://www.crosportal.eu/content/ntts-2013-proceedings. Zugegriffen: 9. Juni 2015 21. United Nations Economic Commission for Europe (2013) What does „Big Data“ mean for Official Statistics? http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170614. Zugegriffen: 9. März 2015 22. UNECE (2015) Big Data in official statistics. http:// www1.unece.org/stat/platform/display/bigdata/ Big+Data+in+Official+Statistics. Zugegriffen: 9. Juni 2015 23. Europäisches Statistisches System (2013) Scheveningen Memorandum on Big Data, DGINS, 25–26 Sep 2013, The Hague. http://www.cros-portal.eu/ content/scheveningen-memorandum. Zugegriffen: 9. März 2015 24. Eurostat (2014) The ESSC comes to an agreement on the ESS Vision 2020. http://ec.europa.eu/eurostat/web/ess/-/the-essc-comes-to-an-agreementon-the-ess-vision-2020. Zugegriffen: 9. Juni 2015 25. Eurostat; Collaboration in Research and Methodology for Official Statistics (o. J.) Big Data – project details. http://www.cros-portal.eu/projectdetail/5134. Zugegriffen: 9. Juni 2015 26. Eurostat (2014) ESS Big Data Event Rome 2014– technical event report. http://www.cros-portal.eu/ content/2014-big-data-event-technical-information. Zugegriffen: 9. März 2015 27. NTTS – Conferences on New Techniques and Technologies for Statistics (2015) Proceedings. doi 10.2901/EUROSTAT.C2015.001. http://www.crosportal.eu/content/ntts-2015-proceedings. Zugegriffen: 9. Juni 2015 28. Radermacher W (2015) Eröffnungsrede zur NTTS 2015. http://www.cros-portal.eu/content/presentation-radermacher-opening-speech-wr. Zugegriffen: 15. März 2015 29. Wirthmann A, Stavropoulos P, Petrakos M, Petrakos G (2015) Proposal for an accreditiation procedure for big data sources. http://www.cros-portal.eu/content/proposal-accreditiation-procedurebig-data-sources-albrecht-wirthmann-photis-stavropoulos. Zugegriffen: 15. März 2015 30. Europäisches Statistisches System (2014) ESS Big Data action plan and roadmap 1.0, Document for the 22nd Meeting of the European Statistical System Committee. http://www.cros-portal.eu/content/ess-big-data-action-plan-and-roadmap-10. Zugegriffen: 9. März 2015

Bundesgesundheitsblatt - Gesundheitsforschung - Gesundheitsschutz 8 · 2015 

| 843

[Big data in official statistics].

The concept of "big data" stands to change the face of official statistics over the coming years, having an impact on almost all aspects of data produ...
337KB Sizes 2 Downloads 11 Views