Daran, dass die schon heute ungeheuren Datenmengen weiter wachsen werden, besteht kein ernsthafter Zweifel, egal mit welchen Begrifflichkeiten dies beschrieben wird. Dafür sorgt schon das Moore’sche Gesetz, nach dem sich die Leistungsfähigkeit elektronischer Komponenten alle 18-24 Monate verdoppelt. Sensoren liefern eine immer größere Informationsbasis, das Internet verknüpft die Datenmassen und immer leistungsfähigere Speicherchips ermöglichen es, Transaktionen mit immer größeren Datenmengen in Echtzeit durchzuführen. Daten aus unterschiedlichsten Quellen werden zusammengeführt und auf Auffälligkeiten untersucht.
Herrschaft der Algorithmen
Bei der automatisierten Informationsverarbeitung werden Daten nach in der Hard- und Software implementierten Regeln verarbeitet, sogenannten Algorithmen. Die klassischen Small Data-Algorithmen orientieren sich an der jeweiligen Aufgabe. Letztlich geht es um möglichst effiziente Verfahren, mit denen sich aus einer definierten Datenmenge ein Ergebnis erzielen lässt. Auch das in seinen Grundzügen aus den 1970er Jahren stammende Datenschutzrecht orientiert sich an derartigen Lösungsmechanismen. Erforderlichkeit und Zweckbindung sind entscheidende Maßstäbe für die Zulässigkeit der Verarbeitung personenbezogener Daten.
Bei Big-Data-Algorithmen stehen dagegen Korrelationen, also statistische Zusammenhänge im Mittelpunkt, aus denen allerdings vielfach individualisierte Schlussfolgerungen gezogen werden. Ein zentrales Merkmal der algorithmischen Steuerung ist die Klassifizierung, d.h. die Zuordnung von Datenelemente zu bestimmten Gruppen. Die Zuordnung erfolgt im Regelfall mittels statistischer Verfahren. Sie kommen nicht nur bei der Internet-Werbung zum Einsatz, sondern zunehmend auch bei existentiellen Entscheidungen: Ob wir einen Kredit erhalten und wenn ja zu welchen Konditionen, ob wir in eine Versicherung aufgenommen werden und wie viel Prämie wir dafür ggf. zu zahlen haben. Algorithmen schlagen vor, ob wir bei der Bewerbung auf einen Arbeitsplatz zum Vorstellungsgespräch eingeladen werden sollen, wer für eine Beförderung in Frage kommt und wer ein Entlassungskandidat ist. Zunehmend treffen nicht Menschen sondern Computer die Entscheidungen. Je weiter die Automatisierungstechnik voranschreitet, desto mehr vollautomatisierte Anwendungen gibt es, die über unser Wohl und Wehe bestimmen, etwa bei „autonom fahrenden“ Kraftfahrzeugen, die dauernd untereinander, mit dem Hersteller oder mit Navigationssystemen kommunizieren. Für die Betroffenen und die Gesellschaft ist weitgehend intransparent, wie diese Algorithmen funktionieren und ob die in ihnen implementierten Verfahren und Wertentscheidungen rechtlich und ethisch vertretbar sind.
Big Data und Datenschutz
Damit werden die zentralen datenschutzrechtlichen Anforderungen infrage gestellt, die das Bundesverfassungsgericht in seinem berühmten Volkszählungsurteil 1983 formuliert hat: Jeder Mensch hat ein Grundrecht auf informationelle Selbstbestimmung. Der Betroffene soll im Grundsatz selbst darüber entscheiden, wem er welche Informationen offenbart und für welche Zwecke die ihn betreffenden Daten genutzt werden. Bei Big Data läuft es umgekehrt: Algorithmen generieren aus einer immer umfangreicheren Datenmenge Bewertungen, Entscheidungen oder zumindest Entscheidungsvorschläge, die mit den ursprünglichen Verarbeitungszwecken kaum etwas oder nichts zu tun haben.
Datenschutzrechtliche Regelungsansätze, die sich auf das einzelne Datum konzentrieren, können den mit Big Data einhergehenden Herausforderungen nicht wirklich gerecht werden. Bedeutsamer werden deshalb verfahrensmäßige und technische Sicherungen, etwa die Anonymisierung und Pseudonymisierung. Zudem ist die Vorab-Analyse möglicher Folgen neuer Verfahren auf den Datenschutz und die Selbstbestimmung geboten (Datenschutz-Folgeabschätzung). Auch die Transparenz muss auf eine neue Ebene gehoben werden: Das Auskunftsrecht des Einzelnen über die zu seiner Person gespeicherten Daten reicht nicht mehr aus. Nur wenn transparent ist, welche Daten in die jeweiligen Auswertungen und Bewertungsprozesse einfließen, nach welchen Kriterien die Klassifikation erfolgt und wie sie Entscheidungen beeinflussen, lassen sich Aussagen zu deren Rechtmäßigkeit und ethischen Vertretbarkeit gewinnen. Notwendig ist also auch Algorithmentransparenz.