Meine Merkliste Geteilte Merkliste PDF oder EPUB erstellen

Was sind offene Daten? | Open Data | bpb.de

Open Data Einführung Was sind offene Daten? Nutzen offener Daten Offene Daten in Deutschland Globale Entwicklung Open Data und Transparenz Datenjournalismus Lokale Datenprojekte Fallbeispiele Gerüst für Open-Data-Portal steht Redaktion

Was sind offene Daten?

Daniel Dietrich

/ 11 Minuten zu lesen

Welche rechtlichen und technischen Voraussetzungen müssen geschaffen sein, damit sich Daten 'offen' nennen dürfen? Was für Lizenzen sind notwendig, um Daten offen nutzen zu dürfen?

Creative Commons - eine mögliche Lizenz für offene Daten. (CC) Lizenz: cc by/3.0/de

Im Gegensatz zu Informationen handelt es sich bei Daten oft um nicht-textliches Material, wie Karten und Satellitenaufnahmen, um so genannte "Rohdaten", wie Wetter-, Geo- und Umweltdaten oder um Daten, wie sie zum Beispiel in der Forschung anfallen, etwa um Genome, medizinische Daten, mathematische und wissenschaftliche Formeln.

Der Begriff "offene Daten" (englisch Open Data) ist ein einfaches Konzept: Daten sind dann "offen", wenn sie durch jedermann und für jegliche Zwecke genutzt, weiterverarbeitet und weiterverbreitet werden können. Dieses Konzept ist im akademischen Bereich nicht neu und ähnelt den Konzepten von Open Access, Open Content und Open Source.

Der Begriff offene Daten schließt Daten aus Wissenschaft und Forschung mit ein, dennoch wird er heute oft synonym für "Open Government Data" verwendet, also für "offene Daten der öffentlichen Verwaltung" oder kurz "offene Behördendaten". Offene Behördendaten spielen eine wichtige Rolle im Prozess der Öffnung von Regierung und Verwaltung, der als Open Government bezeichnet wird.

Open Government steht für einen kulturellen Wandel im Verhältnis von Bürger und Staat, der zu mehr Transparenz, mehr Teilhabe und einer intensiveren Zusammenarbeit führen kann. Offene Daten sind Teil und notwendige Voraussetzung für diesen Prozess der Öffnung. Durch den freien Zugang der Allgemeinheit zu offenen Behördendaten kann politisches Handeln transparent und nachvollziehbar werden. Das kann zu mehr Rechenschaft und Pflichtbewusstsein der Amtsträger gegenüber der Allgemeinheit führt, was wiederum zu einer stärkeren Akzeptanz von Regierungshandeln führen und das Vertrauen der Bevölkerung in ihre Regierung und Verwaltung stärken kann. Transparentes Regierungs- und Verwaltunghandeln ist außerdem das beste Mittel gegen Korruption. Im Effekt können offene Daten also die Demokratie nachhaltig stärken.

Behörden und Ministerien, Parlamente, Gerichte und andere Teile der öffentlichen Verwaltung produzieren jedes Jahr große Menge an Daten. Dazu gehören Umwelt- und Wetterdaten, Geodaten, Verkehrsdaten, Haushaltsdaten, Statistiken, Publikationen, Protokolle, Gesetze, Urteile und Verordnungen. Diese Daten dienen der Erfüllung staatlicher Aufgaben und sind von öffentlichem Interesse.

Offene Daten sind nicht nur gut für die Demokratie, sie bergen auch enormes Potential für Innovationen. Liegen diese Daten als offene Daten vor, können sie von Bürgern, Nichtregierungsorganisationen, Hochschulen und Firmen genutzt, weiterverarbeitet, veredelt und weiterverbreitet werden. So können neue Auswertungen und Analysen, Anwendungen, Produkte und Dienstleistungen, Geschäftsmodelle und Produktionsketten entstehen.

Was unterscheidet offene Daten von anderen Daten?

Nicht alle Daten sind offene Daten. Es gibt Daten, die prinzipiell nicht für die Veröffentlichung vorgesehen sind, dazu gehören zum einen personenbezogene Daten und bestimmte Daten, die aus Sicherheitsgründen per Gesetz nicht öffentlich sind. Für alle andern Daten stellt sich die Frage: Warum sind sie eigentlich nicht als offene Daten frei zugänglich? Es gibt Daten, die zwar veröffentlicht sind, aber nicht als offene Daten gelten können, weil sie etwa unter einer Lizenz stehen, die eine Weiterverarbeitung nicht gestattet oder weil sie in einem Format vorliegen, das eine Weiterverarbeitung erschwert oder verhindert. In einer internationalen Debatte wurde in den letzten Jahren der Versuch unternommen, den Begriff "offene Daten" zu definieren. Diese Definition kann wie folgt zusammengefasst werden:

Daten sind dann offen, wenn es keine rechtlichen, technischen oder sonstigen Kontrollmechanismen gibt, die den Zugang, die Weiterverarbeitung und die Weiterverbreitung dieser Daten einschränken. Der Zugang, die Weiterverarbeitung und die Weiterverbreitung soll jedermann und zu jeglichem Zweck, auch kommerziellem, ohne Einschränkungen und Diskriminierung und ohne Zahlung von Gebühren möglich sein.
Daten müssen also in technischer wie rechtlicher Hinsicht offen sein, um als "offene Daten" gelten zu können. Warum ist das so wichtig? Reicht es nicht aus, wenn zum Beispiel eine Behörde eine Information auf Anfrage per Post zustellt oder als PDF auf ihrer Webseite veröffentlicht? Die Antwort ist ein klares "Nein". Bei offenen Daten geht es um das explizite Recht und die Möglichkeit, die Daten nicht nur einsehen, sondern auch weiterverarbeiten und weiterverbreiten zu können. Das Potential von offenen Daten kann nur realisiert werden, wenn die Daten in offenen maschinenlesbaren Formaten, unter offenen Lizenzen und kostenfrei zugänglich sind.

In den letzten Jahren wurden von international anerkannten Organisationen Prinzipien und Empfehlungen entwickelt, die Regierungen und Verwaltungen dabei helfen sollen, ihre Datenbestände für die Allgemeinheit zu öffnen. An erster Stelle sind die "Externer Link: 8 Prinzipien für offene Behördendaten" zu nennen, die 2007 im Kalifornischen Sebastopol von 30 Experten unter Leitung von Tim O´Reilly und Carl Malamud erarbeitet wurden. Diese Prinzipien wurden 2010 von der Sunlight Foundation in einer überarbeiteten und erweiterten Fassung als "Externer Link: 10 Prinzipien zum Öffnen von Regierungsinformationen." veröffentlicht. Sie gelten seither als Standard.

Die 10 Prinzipien zum Öffnen von Regierungsinformationen benennen die wichtigsten Grundsätze, die bei der Veröffentlichung von Daten berücksichtigt werden sollten. Die Grundsätze sind: Vollständigkeit, Primärquelle, Aktualität, Zugänglichkeit, maschinelle Lesbarkeit, Nichtdiskriminierung, Verwendung von offenen Standards, offene Lizenzierung, Dauerhaftigkeit und niedrige Nutzungskosten (Externer Link: so die deutsche Übersetzung der 10 Prinzipien zum Öffnen von Regierungsinformationen.)

Doch was bedeuten diese Prinzipien für die Praxis?

Um staatliche Stellen dabei zu unterstützen ihre Daten zu öffnen und anzubieten, hat das World Wide Web Consortium (W3C) einen Externer Link: Leitfaden entwickelt. Dabei werden drei Schritte zur Veröffentlichung staatlicher Daten empfohlen:

  1. Erster Schritt: Rohdaten online veröffentlichen.

  2. Zweiter Schritt: Die veröffentlichten Daten in einem Online-Verzeichnis sortieren.

  3. Dritter Schritt: Daten für Mensch und Maschine lesbar machen und miteinander vernetzen.

Diese Empfehlungen sind denkbar einfach und technisch nicht schwierig umzusetzen. Sie sollen es Behörden leicht machen, mit der Öffnung ihrer Datenbestände anzufangen: Alle Daten, die behördenintern in digitaler Form vorliegen, sollen so, wie sie sind, als "Rohdaten" veröffentlicht werden. Dieser erste Schritt macht die Daten zugänglich und kann von jeder Behörde schon heute, ohne großen Aufwand und ohne große Kosten umgesetzt werden. Im zweiten Schritt werden die Daten sortiert und über einen Katalog erschlossen, was die Suche erleichtert. Im dritten Schritt werden die Daten in strukturierte und maschinenlesbare Formate überführt und miteinander vernetzt.

Dahinter steckt die Einsicht, dass nicht alle Daten von heute auf morgen mit dem höchstmöglichen Grad an Offenheit entsprechend der 10 Prinzipien zum Öffnen von Regierungsinformationen zugänglich gemacht werden können. Deshalb wird ein schrittweises Vorgehen empfohlen. Um die Qualität von veröffentlichten Daten zu messen, hat Sir Tim Berners-Lee, Erfinder des World Wide Web, ein "Externer Link: Fünf-Sterne-Modell" vorgeschlagen, das den Grad der Offenheit von Datensätzen klassifiziert.

Fünf-Sterne-Modell

  • kein Stern : Daten im Web (Format egal), ohne offene Lizenz

  • 1 Stern : Daten im Web (Format egal) mit offener Lizenz

  • 2 Sterne : Daten in strukturiertem Format (z.B. Excel)

  • 3 Sterne : Daten in strukturiertem, nicht proprietärem Format (z.B. CSV statt Excel)

  • 4 Sterne : Verwendung von eindeutigen URLs, so dass Datensätze verlinkt werden können

  • Sterne : Verlinkung der eigenen Daten mit anderen Daten, um Kontext herzustellen

Das Fünf-Sterne-Modell ist kaskadierend: Den zweiten Stern kann nur bekommen, wer bereits die Voraussetzungen für den ersten Stern erfüllt. Auffallend dabei ist, dass die erste Prämisse keine technische ist, sondern eine offene Lizenz voraussetzt. Also: Ohne offene Lizenzen keine offenen Daten.

Rechtliche Offenheit und Lizenzen

Die verschiedenen Rechstsysteme haben sehr unterschiedliche Regelwerke für das Immaterialgüterrecht hervorgebracht. Im angelsächsischen Raum gilt das Copyright, während im kontinentaleuropäischem Raum das Urheberrecht gilt. In beiden Systemen soll das Eigentumsrecht an immateriellen Gütern geregelt werden. Um die Eigentumsrechte an immateriellen Werken kenntlich zu machen, werden sie mit Lizenzen versehen.

Lizenzen und Nutzungbedingungen sind oft komplex und in einer Sprache geschrieben, die von vielen Menschen nicht verstanden wird. Dabei betreffen diese oft fundamentale Rechte und Pflichten, etwa ob, wie und für welche Zwecke man einen bestimmten Datensatz nutzen kann. Daten als immaterielle Güter lassen sich, vereinfacht gesagt, hinsichtlich ihrer rechtlichen Offenheit in drei Kategorien teilen:

  1. Daten, die von Gesetz her nicht dem Urheberrecht unterliegen, also "gemeinfrei" sind.

  2. Daten, die zwar dem Urheberrecht unterliegen, deren Nutzung, Weiterverarbeitung und Weiterverbreitung aber durch eine offene Lizenz möglich ist.

  3. Daten die dem Urheberrecht unterliegen, deren Nutzung, Weiterverarbeitung und Weiterverbreitung aber durch eine nicht-offene Lizenz nicht möglich ist.

Wenn Daten nicht dem Urheberrecht unterliegen, also gemeinfrei sind, kann jeder damit machen, was er will, Weiterverarbeitung und Weiterverbreitung auch zu kommerziellen Zwecken inbegriffen. Unterliegen Daten aber dem Urheberrecht, wird meist in einer Lizenz geregelt, ob, wie und in welchem Umfang man sie nutzen darf.

Aber welche Lizenzen sind für offene Daten geeignet? Die von der Externer Link: Open Knowledge Foundation entwickelte "Externer Link: Definition für offenes Wissen" (Open Definition) kann als Maßstab und Definition für den Begriff der "Offenheit" für Lizenzen gelten. Ist eine Lizenz mit der "Definition für offenes Wissen" kompatibel, kann sie als offene Lizenz und damit als geeignet für offene Daten und offene Inhalte angesehen werden. Auf dieser Seite kann eine Externer Link: Liste kompatibler und nicht kompatibler Lizenzen eingesehen werden.

Wer Daten nutzen und weiterverarbeiten möchte, muss also im Zweifel ganz genau hinsehen, um sicherzustellen, dass er bestimmte Daten tatsächlich nutzen kann. Zudem sind Lizenzen oft nicht miteinander kompatibel, so dass sich nicht alle Daten miteinander kombinieren lassen. Das ist ein großes Problem, das dem Gedanken von offenen und vernetzten Daten widerspricht; deshalb ist es ratsam, international anerkannte und bewährte Lizenzen zu verwenden, um eine möglichst große Kompatibilität mit anderen Lizenzen herzustellen. Für alle, die Daten weiterverarbeiten, mit anderen Daten vernetzen, kombinieren und weiterverbreiten wollen, gilt: Das Kleingedruckte lesen!

Technische Offenheit und Formate

Eine nachhaltige Infrastruktur offener Daten besteht aus drei Ebenen: Rohdaten, Schnittstellen und Anwendungen. Auf der ersten Ebene werden die Rohdaten zeitnah und in vollem Umfang veröffentlicht. Auf der zweiten Ebene werden diese Rohdaten über Schnittstellen (so genannte API, von englisch "Application Programming Interface") zugänglich gemacht. Auf der dritten Ebene können nun Programme die Daten über diese Schnittstellen auslesen und automatisiert auswerten und weiterverarbeiten. Auf dieser dritten Ebene entstehen die sichtbaren und auch von Menschen nutzbaren Anwendungen, Mashups und Visualisierungen.

Um eine Weiterverarbeitung von Daten über die drei Ebenen hinweg zu ermöglichen, müssen diese in Formaten vorliegen, die von Maschinen / Programmen automatisiert gelesen und weiterverarbeitet werden können. Damit Maschinen Daten auswerten und verarbeiten können, müssen diese erstens in einem standardisierten, offenen und wohl dokumentierten Format vorliegen und zweitens sinnvoll strukturiert sein.

Die Maschinenlesbarkeit eines Datensatzes sollte darauf ausgerichtet sein, die Einbindung in Softwareanwendungen wie webbasierte Mashups oder mobile Apps mit möglichst wenig Aufwand realisieren zu können. Dies setzt neben einer soliden Strukturierung und Auszeichnung mit Metadaten auch das Bereitstellen von Rohdaten zum Download oder von webbasierten Schnittstellen (APIs) für Datenabfragen voraus.

Strukturierte Daten weisen eine eindeutige Datenstruktur auf und können einfach automatisiert, bearbeitet, sortiert und gefiltert werden. In einem strukturierten Datensatz haben die einzelnen Elemente klare Bezeichnungen. Beispielsweise: Name, Typ, Datum, Standort usw. für die einzelnen Spalten einer Tabelle oder einer Datenbank.

Semistrukturierte Daten liegen nicht in Tabellenform vor, sondern sind per Auszeichnung gekennzeichnet und damit ebenfalls einfach automatisiert auslesbar (aber meist auch für den Menschen verständlich). Gängiges Format im Internet ist XML.

Unstrukturierte Daten sind Informationseinheiten wie etwa Schriftstücke, die als Text- oder Bilddatei vorliegen (etwa PDF-Dateien und eingescannte Dokumente). Das "Portable Document Format" (.pdf), ist sehr verbreitet, aber leider gänzlich ungeeignet für offene Daten, da sich die dort enthaltenen Informationen nicht (oder nur mit unverhältnismäßigem Aufwand) maschinell auslesen lassen.

In der Informationstechnologie beschreiben Standards technische Normen und U¨bereinku¨nfte, die in der Praxis eine weite Akzeptanz gefunden haben. Als "offene Standards" werden jene Normen bezeichnet, die fu¨r alle Marktteilnehmer besonders leicht zuga¨nglich und einsetzbar sind und weiterentwickelt werden können. Offene Standards ermöglichen es, alle möglichen Arten von Daten frei und ohne Veränderungen mit anderen zu teilen. Sie verhindern eine Abhängigkeit von einzelnen Herstellern und andere künstliche Barrieren gegen Interoperabilität.

Ein offenes Format ist eine publizierte Spezifikation zum Speichern von Daten in digitaler Form, das ohne rechtliche Einschränkungen genutzt werden kann. Das Vorhandensein von offen einsehbaren Spezifikationen und Quellcode ist eine Voraussetzung für Transparenz und Vertrauen im Bezug auf die eingesetzte Technologie.

Beispiele für offene Formate sind etwa Textdateien, für einfachen Text (.txt); Rich Text Format, für formatierten Text (.rtf); Comma Separated Value, für Tabellen (.csv); Extensible Markup Language, eine erweiterbare Auszeichnungssprache (.xml); JavaScript Object Notation, ein kompaktes Datenformat in für Mensch und Maschine lesbarer Textform zum Datenaustausch zwischen Anwendungen (.json); Scalable Vector Graphics, ein offenes Grafikformat (.svg); Keyhole Markup Language, eine Auszeichnungssprache zur Beschreibung von Geodaten (.kml); Open Document Format, ein international genormter, quelloffener Standard für Dateiformate von Bürodokumenten wie Texten, Tabellendokumenten, Präsentationen, Zeichnungen, Bildern und Diagrammen (.odt, .ods und andere).

Ein Beispiel für nicht offene Formate sind Exceltabellen (.xls), die zwar maschinenlesbar, aber nicht wirklich offen, sondern proprietär sind. Das Format ist Eigentum einer Firma, die dessen Einsatz und Nutzung mit Einschränkungen belegen kann.

Interoperabilität durch Verwendung offener Standards: Mit dem Einsatz offener Standards wird die Verwendung von Formaten angestrebt, welche nicht nur von ausgewählten Programmen gelesen und verarbeitet werden können. Offene Standards gewährleisten die Freiheit, mit verschiedenen Programmen auf die Daten zugreifen zu können, ohne sich in die Abhängigkeit eines Herstellers zu begeben. Software-Tools und Anwendungen können damit für verschiedenste Datensätze aus unterschiedlichen Quellen verwendet werden und somit ihren Nutzen potenzieren. Interoperable Austauschmechanismen zwischen verschiedenen Datenportalen sollten auf Basis von offenen Standards ermöglichen, dass eine dezentrale Veröffentlichung unterstützt wird und darauf aufbauend die Daten in regionalen, nationalen bis hin zu europäischen und internationalen Datenportalen aggregiert werden können.

Aggregierte und strukturierte Daten können über Schnittstelle, auch API (Application Programming Interface) zugänglich gemacht werden. Eine API erlaubt es anderen Softwareanwendungen, gezielt und automatisiert maschinenlesbare Daten abzufragen. So können verschiedene Daten automatisiert miteinander verknüpft und interpretiert werden. Im Sinne einer Infrastruktur für offene Daten sollte eine zur Verfügung gestellte Möglichkeit, Daten über eine Schnittstelle maschinell abzufragen, aber niemals das Zur-Verfügung-Stellen von Rohdaten und/oder von Datenbankexporten, auch als "Bulk Data" bekannt, ersetzen.

Datenaktualität: Die Aktualität offener Daten ist wichtig für den praktischen Nutzwert der auf diesen Daten aufbauenden Anwendungen und damit letztendlich für die Akzeptanz dieser Anwendungen durch den Nutzer. Es sind somit technische und organisatorische Vorkehrungen zu treffen, die eine hohe Datenaktualität gewährleisten.

Linked Open Data

Externer Link: Linked Open Data (LOD) bezeichnet frei verfügbare Daten, die im Internet über einen Uniform Resource Identifier (URI) eindeutig identifiziert und adressiert sind und ebenfalls per URI auf andere Daten verweisen. Die miteinander verknüpften Daten ergeben ein weltweites Netz, das "Externer Link: Web of Data". Um eine möglichst einfache automatische Nutzung der Daten unabhängig von ihrem konkreten Ursprung zu gewährleisten, sollten diese offenen Daten gemäß internationaler Externer Link: W3C Standards und nach den "Linked Open Data" (LOD) Richtlinien im Internet vernetzt werden.

Dies eröffnet die Möglichkeit, diese Daten über Domänen- und Organisationsgrenzen hinweg zu nutzen und durch deren Verknüpfung komplexe Zusammenhänge sichtbar zu machen und zu verstehen. Dabei ergeben sich Mehrwerte und neue Erkenntnisse, insbesondere, sobald Datenbestände miteinander kombiniert werden, die zuvor noch nicht miteinander verknüpft wurden. Strukturierte Datenbestände lassen sich problemlos in LOD Ressourcen konvertieren. In Kombination mit dem Externer Link: Resource Description Framework (RDF) zur Repräsentation strukturierter Datenbestände bietet sich eine einfach umzusetzende Möglichkeit, diese Daten aufzubereiten, zu teilen, zu exportieren und zu vernetzen.

Basierend auf diesem Ansatz ist bereits ein Netzwerk miteinander verknüpfter freier Datenbestände entstanden, das aktuell mehr als 25 Milliarden Fakten beinhaltet, die über ca. 400 Millionen Links miteinander verknüpft sind. Diese als "Externer Link: Linked Open Data Cloud" bezeichnete Datenwolke vereinigt populäre Datensätze aus öffentlichen und privaten Beständen des Externer Link: Semantic Webs, wie z.B. enzyklopädische Daten (Externer Link: DBpedia, Externer Link: WordNet), geografische Daten (Externer Link: GeoNames, Externer Link: Open Street Map und Externer Link: Linked GeoData oder bibliografische Daten (Externer Link: DBLP, Externer Link: RDF Book MashUp). Der "Linked Open Data" Ansatz ermöglicht es, diese Datenbestände auf einfache Weise über offene Schnittstellen (APIs) in Anwendungen und Softwarewerkzeugen zu nutzen, um so automatisiert komplexe Recherchen, Überwachungen und Berichterstattungen mit geringem Aufwand durchführen zu können.

Insbesondere der öffentliche Sektor verfügt über eine Vielzahl an Datenquellen, die zum Teil bereits öffentlich vorliegen. Werden diese Datenbestände nach den"Linked Open Data" Prinzipien publiziert und miteinander verknüpft, entsteht eine einzigartige Möglichkeit, diese als wertvolle Informationsquelle nutzen zu können.

Weitere Inhalte

Daniel Dietrich, studierte Politikwissenschaft, visuelle Kommunikation und Produktdesign in Frankfurt und Berlin. Er ist als wissenschaftlicher Mitarbeiter an der TU Berlin im Fachbereich Informatik und Gesellschaft tätig. Er ist offizieller Repräsentant der Open Knowledge Foundation in Deutschland. Für die Open Knowledge Foundation ist er Projektkoordinator der Open Definition und der Arbeitsgruppe zu Open Government Data. Er ist Mitgründer des Open Data Network.