Vor ein oder zwei Jahren war es kaum möglich, einen Text über die Zukunft, Potentiale und Gefahren der Digitalisierung zu finden, der nicht mit dem Begriff "Big Data" durchsetzt war. Von ihm gingen die Betrachtungen potentieller digitalisierter Zukunft aus: "Big Data" würde bisher unlösbare Aufgaben durch bloße Datengewalt bezwingen. Im Gegenzug warnten Datenschützer: Der Einzug von Technologien, die auf Big Data Analysen basieren, würde dazu führen, dass immer mehr und mehr Daten über Menschen gesammelt und ausgewertet würden, die Kontrolle über die eigene digitale Repräsentation (Stichwort Informationelle Selbstbestimmung) ginge verloren und Menschen würden immer mehr vom handelnden Subjekt zum reinen Objekt undurchschaubarer und versteckter Datenanalyse.
Nachdem der Begriff nun langsam an Popularität verliert, lohnt es zu fragen: Was ist aus dem Hype-Thema geworden?
Was wirklich in Big Data steckt
Typisch für in der öffentlichen Wahrnehmung derart dominanter Begriffe ist, dass sie eine Vielzahl sehr unterschiedlicher Konzepte bzw. Interpretationen kanalisieren. Erst durch dieses Zusammenfließen sehr unterschiedlicher Ansätze können viele, sehr technische und damit oft für die Allgemeinheit undurchsichtige, Begriffe eine breite Anschlussfähigkeit entwickeln. Solche Hype-Begriffe entwickeln oft die Tendenz zu einer Art diffusen Heilsversprechen à la "In nur wenigen Jahren wird das vorliegende Konzept viele akute Probleme wie Magie gelöst haben."
Unter dem Begriff "Big Data" subsummierten sich vor allem drei Aspekte: Aus Sicht der Informatik eher überschaubare Datensammlungen, neuartige Analyseverfahren für extrem große und heterogene Datenmengen sowie ein fundamentaler Paradigmenwechsel für die methodische Herangehensweise innerhalb von Softwaresystemen, Wissenschaft und Journalismus. Einfache, große Datensammlungen "Big Data" zu nennen, war dabei maßgeblich ein Ausdruck des Zeitgeistes und des Wunsches, Teil einer technologischen Avantgarde zu sein. In diesem Zusammenhang wird der Begriff heute kaum noch verwendet.
Die im Big Data Kontext popularisierten Analysevorgehen (wie beispielsweise das viel zitierte map/reduce-Verfahren), mit denen es möglich wurde, anhand großer, heterogener Datenmengen Abfragen und Analysen durchzuführen, haben dagegen ihren Weg in den technologischen Mainstream gefunden. Ob im Bereich sozialer Netzwerke oder bei der Analyse von Sensordaten in industriellen Kontexten – heute finden sich die technischen Innovationen, die unter dem Big Data Label in den Fokus gerückt wurden, im Werkzeuggürtel einer großen Menge von Entwicklern und Entwicklerinnen. Big Data aus dieser Perspektive heraus ist insofern "Normalität" geworden, dass der Begriff, der diese Technologien als besonders charakterisierte, weit in den Hintergrund getreten ist.
Gemischte Gefühle
Big Data als analytische Methode hat seine Effektivität bei der Lösung sehr spezifischer Probleme bewiesen: Musik- und Filmportale z. B. empfehlen ihren Kunden mittels Big Data Analysen Medieninhalte, die auf deren Vorlieben basieren. Aus Daten über Clicks und Verweildauern auf Webseiten generieren Werbetreibende hochspezifische Nutzerprofile und leiten aus ihnen die nächsten Werbeaktivitäten vollautomatisch ab. Nachrichtenportale nutzen dieselben Daten zur Optimierung ihrer Inhalte auf ihre anvisierte Zielgruppe hin.
Die Wahrnehmung dieser "Lösungen" ist sehr unterschiedlich: Während die Menschen mit dynamisch generierten individualisierten Musikvorschlägen oft sehr zufrieden sind, stoßen auf möglichst viele Clicks optimierte, mit manipulativen Überschriften versehene Artikel (so genannter "Clickbait") oft auf Kritik und Widerstand. Vorausgesetzt, sie werden überhaupt als Clickbait wahrgenommen.
An der Ursache vorbei
Die Diskussion um unterschiedliche Arten der Big Data Analysen ist allerdings in den letzten Jahren deutlich abgeflaut. Das ist sicher auch darin begründet, dass die Generalität, also die Verdrängung klassischer Lösungsansätze, die in optimistischen Artikeln über Big Data Verfahren noch vor Jahren als quasi unausweichliche Entwicklung dargestellt worden war, sich nicht bewahrheitet hat. Die rein statistische Korrelationsanalyse, die Big Data charakterisiert, hat die traditionelle Theorie- und Modellbildung nicht ersetzt, sondern hat sich als weiterer Ansatz etabliert.
Komplexer wird die Einschätzung allerdings, wenn es um den Einfluss von "Big Data" auf das dominierende Erkenntnisparadigma geht. Traditionelle Wissenschaft funktioniert, in dem ein kausales Modell eines Problems entwickelt und dieses mit empirischen Daten überprüft. Es wird versucht, die wirklichen Zusammenhänge zu benennen und abzubilden. Big Data Ansätze hingegen fokussieren statt auf Kausalität (Ursache) auf Korrelation (Zusammenhang). Das heißt sie beschränken sich auf die Frage, ob bestimmte Datenmuster "zusammen" (also zum Beispiel zu einem ähnlichen Zeitpunkt) auftreten. Aus dieser abstrakten "Nähe" wird ein kausaler Zusammenhang propagiert, der dann oft auf neue Kontexte angewendet wird.
Analyse ohne Zusammenhang
Während der Ansatz bei Netflix oder Amazon möglicherweise harmlos wirken mag, so ist er im wissenschaftlichen, journalistischen oder auch sozialen Kontext problematisch. Plattformen wie Facebook tragen zur selektiven Wahrnehmung der Wirklichkeit durch die Auswahl der Inhalte bei, die den Nutzern angezeigt werden. Damit haben sie großen Einfluss auf die individuelle Meinungsbildung.
Hier übernehmen Big Data Analysen eigentlich journalistische Funktionen, ohne sich journalistischen Standards zu unterwerfen. Auch Aussagen aus der Wissenschaft, die auf Big Data Analysen fußen, werden im öffentlichen Diskurs gerne als Wahrheit aufgenommen und als normativ gesetzt. Die Öffentlichkeit fordert von Wissenschaft eine Erklärung der Welt, eine Analyse der Zusammenhänge, die Big Data Analysen nicht zu liefern im Stande sind. Hier kann der Erfolg und die große Verbreitung von Big Data Technologien langfristig zum Problem werden, wenn den Datenanalysespielereien und Visualisierungen keine Modellbildung folgt.
Wenn per Big Data Analyse festgestellt wird, dass junge schwarze Männer, die häufig in Drogendelikten involviert sind, gerne Hip Hop hören, dann wird die Polizei junge schwarze Männer, die öffentlich Hip Hop hören, auch ohne Verdacht eher auf Drogenbesitz hin kontrollieren als andere. So wird eine rassistische, diskriminierende gesellschaftliche Struktur ohne die Beleuchtung von sozialen, ökonomischen oder politischen Hintergründen durch eine scheinbar objektive Analyse legitimiert und fortgeschrieben. Die reine Korrelation erzeugt hier eine Scheinwahrheit.
Eine Technologie von vielen
Insgesamt hat sich der Begriff Big Data heute weitgehend in neuen Hype-Begriffen der Technologiebranche aufgelöst: "Predictive X" (zum Beispiel als “Predictive Policing”), "Machine Learning" oder auch der alle paar Dekaden wieder populäre Begriff der "künstlichen Intelligenz". Sie haben den Begriff Big Data in den Hintergrund gedrängt, auch wenn die neuen Hypes oft auf den Entwicklungen der Big Data Technologien aufsetzen - mit allen ungelösten Fragen und sozialen Problemen. Die riesigen Erwartungen, die mit dem Begriff verbunden waren, haben sich nicht komplett bewahrheitet. In wie weit der viel beschworene “Death of Theory”, das weitgehende Ersetzen von erklärenden, kausalen Modellen durch reine Korrelationen, eintreten wird, ist allerdings immer noch offen.