Es ist eine der Fragen, die KI-Expertinnen und -Experten am häufigsten hören: Wird Künstliche Intelligenz uns ersetzen? Und als Nächstes: Welche Arbeitsplätze werden wegfallen? Diese Fragen sind beileibe nicht neu und wurden schon früher mehrfach gestellt. Zu Beginn der 1980er Jahre versuchte man, Computer intelligent zu machen, indem man versuchte, ihnen die Welt zu erklären. Heraus kamen große Regelsysteme, zum Beispiel für Übersetzungen: Da gab es Systeme mit 50.000 Regeln und riesigen Vokabellisten, die vorgaben, welches Wort wie zu übersetzen sei. Die Ergebnisse waren überraschend gut, und schon machten die Menschen sich Sorgen. Fantastischste Ideen kamen auf, wie in kurzer Zeit alles von Maschinen übernommen werden würde.
Wenig später merkte man, dass die Systeme doch nicht so intelligent waren: Ein Programm übersetzte zum Beispiel den Satz „Wir packen das“ mit „Let’s pack it“ und den Satz „Das passt mir nicht in den Kram“ mit „That does not usually suit me in the stuff“. Es waren also insbesondere die figurativen Sätze, mit denen diese regelbasierten Systeme Schwierigkeiten hatten. Das größte Problem an den regelbasierten Systemen aber war ihre mangelnde Wartbarkeit: Wenn ein Fehler in der Übersetzung auftrat, war den Entwicklerteams einfach nicht mehr klar, an welcher Schraube sie drehen mussten, um ihn zu beheben.
Maschinelles Lernen
Die neuen KI-Systeme, die wir seit den 2000er Jahren im Aufwind sehen, funktionieren grundlegend anders als die regelbasierten Systeme der 1980er Jahre: Sie nutzen Daten der Vergangenheit, um darin mit statistischen Methoden nach Mustern zu suchen, die man dann für die Zukunft verwenden kann. Diese Methoden nennt man maschinelles Lernen. Hier werden die Regeln, nach denen die Welt funktioniert, also nicht von uns Menschen vorgegeben, sondern die Maschine extrahiert sie mit statistischen Methoden aus Daten. Das hat zu der irritierenden Formulierung geführt, dass die Maschinen hier „selbst lernen“. Aber von einem „Selbst“, einem intendierten Lernen mit selbst gesteckten Zielen kann überhaupt nicht die Rede sein: Die Maschinen werden von Menschen programmiert. Sie bekommen eine Methode, die im Wesentlichen zählt, was wie oft in den vorliegenden Daten auftaucht. Die Methode legt auch fest, in welcher Form die gefundenen Muster oder Regeln gespeichert werden.
Das lässt sich an einem einfachen Beispiel leicht nachvollziehen, dem Erstellen eines Entscheidungsbaums aus Daten. Als Leser oder Leserin haben Sie sicherlich schon Entscheidungsbäume gesehen: Man fängt oben an und an jeder Stelle gibt es eine Frage, deren Beantwortung dann entweder nach links oder rechts führt. Die Abbildung zeigt ein sehr simples Beispiel für einen Entscheidungsbaum beim Autokauf.
Solche Bäume können automatisch aus Daten der Vergangenheit erstellt werden. Man könnte also eine Menge von Autokäufern und -käuferinnen beobachten und dabei Daten sammeln: Was kostet das Auto? Wo liegt das eigentliche Budget? Wo trifft der Wagen die Wunscheigenschaften? Wo weicht er davon ab? Daraus ließe sich mit statistischen Methoden ein Entscheidungsbaum erstellen, der vorhersagt, wann ein Käufer sich für einen Wagen entscheidet. Dies wiederum könnte Autofirmen helfen, festzustellen, wem man welchen Wagen zeigt.
Wie funktioniert die Methode, die automatisiert aus Daten Entscheidungsbäume baut? Zunächst kann man feststellen, dass jede Frage die Menge an Daten in zwei Teilgruppen einteilt. Dabei wird versucht, in jedem Schritt diejenige Eigenschaft und die daraus resultierende Frage in den Daten zu finden, die am ehesten dafür sorgt, dass möglichst einheitliche Teilgruppen entstehen. So könnte beispielsweise die Frage „Liegt das Auto in meinem Budget?“ diejenige sein, die etwa zeigt, dass die Ja-Sager eher Käufer und die Nein-Sager eher Nicht-Käufer sind. Es könnte aber auch die Frage „Sind meine wichtigsten zwei Ansprüche an den Wagen gedeckt?“ sein, die am besten in zwei Gruppen einteilt, die jeweils relativ homogen sind. Das hängt von den Daten ab, und damit also vom Verhalten der Personen, die man ergründen will. Die Idee ist also, diejenige Frage zu finden, deren Beantwortung eine Teilgruppe mit vielen Käufern und eine Teilgruppe mit vielen Nicht-Käufern liefert. Im Wesentlichen geht man dafür einfach alle Möglichkeiten durch und misst, wie homogen die jeweiligen Teilgruppen wären, wenn man nach dieser oder jener Eigenschaft fragen würde.
Zu diesem Zweck müssen die Entwickler der Methode eine Formel mitgeben, mit der die Homogenität der Teilgruppen bewertet werden kann. Dafür gibt es nun aber mindestens ein Dutzend Formeln, und jede dieser Formeln wird zu anderen Entscheidungsbäumen führen. Es gibt also keinen objektiven Weg, mit der der bestmögliche Entscheidungsbaum sicher berechnet werden kann. Wenn man die „beste“ Frage gefunden hat, macht man für jede Teilgruppe genau so weiter, bis man Teilgruppen gefunden hat, die so homogen sind, dass man das für ausreichend hält, um gute Entscheidungen zu treffen.
Das Beispiel zeigt gut, wie aus Daten der Vergangenheit eine Menge von Regeln berechnet werden kann, um zukünftiges Verhalten vorherzusagen. Nicht so einfach zu verstehen ist allerdings die Interaktion zwischen den Daten und der Methode, die dazu führt, dass die eine oder andere Frage ganz oben steht. Tatsächlich gibt es über 20 Methoden, um Entscheidungsbäume aus Daten zu gewinnen, und jede käme zu sehr unterschiedlichen Ergebnissen, auch wenn sie auf denselben Daten beruhen. Das Beispiel zeigt zudem: Natürlich werden auch die Trainingsdaten vollständig vom Menschen definiert – keines der KI-Systeme geht selbstständig ins Internet und sucht sich Daten nach einem von ihr festgelegten Ziel zusammen. Und nicht zuletzt wird auch von Menschen festgelegt, nach welchen Kriterien die Qualität solcher Systeme bewertet wird: Das System wird dann so lange trainiert, bis es eine annehmbare Qualität erreicht hat.
Bei diesem Prozess geht es nicht nur darum, immer mehr Daten zu sammeln. Man kann zum Beispiel auch mit den Eingabedaten herumspielen: Vielleicht führen Eigenschaften, die eine Käuferin an ihrem Auto sehen wollte, die aber bei einem Wagen nicht vorhanden sind, dazu, dass ihre Kaufbereitschaft sinkt, es sei denn, dass der Preis dann auch entsprechend sinkt. Man könnte also eine neue Eigenschaft aus den bekannten Daten berechnen, die vielleicht so aussieht: „Liegt der Preis bei Budget minus Anzahl der nicht getroffenen Eigenschaften mal 500 Euro?“ Das nennt man feature engineering, und hier sind die Möglichkeiten nur durch die menschliche Kreativität begrenzt. Solange also die Qualität eines solchen gelernten Modells noch nicht stimmt, können die Informatiker und Informatikerinnen jede Menge Knöpfchen und Hebelchen einstellen, um damit mehr Informationen aus den Daten herauszuholen.
Neuronale Netze
Das gilt insbesondere bei den sogenannten neuronalen Netzen. Diese greifen zurück auf etwas, das als Neuron bezeichnet wird. Das klingt durchaus biologisch und nah an dem, was Tiere tun. Es handelt sich allerdings um eine mathematische Formel. Diese bekommt sehr viele Eingangsdaten und berechnet daraus eine einzige Zahl. Das, was dann beim Training gelernt wird, sind die Gewichte, mit denen die jeweiligen Eingangsdaten bewertet werden.
Wenn beispielsweise ein Bilderkennungssystem trainiert wird, bekommt jedes Neuron alle Pixel des Originalbildes als Zahlen präsentiert. Diese werden gewichtet, und daraus wird eine neue Zahl berechnet. Die Gewichte werden bei jedem Bild im Trainingsdatensatz so angepasst, dass eine korrekte Antwort wahrscheinlicher und eine inkorrekte Antwort weniger wahrscheinlich wird. Wenn die Maschine also im Training ein Bild eines Hundes bekommt, aber eine Pyramide „erkennt“, werden die Gewichte von allen Formeln (Neuronen) verändert, sodass sie beim nächsten Mal etwas wahrscheinlicher einen Hund erkennt.
Mit sehr vielen Trainingsdaten und sehr vielen Trainingssessions können dabei Systeme entstehen, die tatsächlich mit einiger Verlässlichkeit Objekte auf Bildern erkennen können. Am besten werden diese neuronalen Netzwerke aber, wenn die Neuronen in Schichten angeordnet sind. Die erste Schicht bekommt dabei die Originalpixel zu sehen. Die zweite bekommt die Resultate der ersten Schicht zu sehen und verarbeitet die weiter. Die dritte Schicht bekommt die der zweiten und so weiter. Die letzte Schicht gibt dann die berechnete Antwort aus. Dadurch bestehen neuronale Netzwerke aus sehr vielen mathematischen Formeln mit einer großen Anzahl von Gewichten, die alle durch die Daten gelernt werden müssen. Auch hier gibt es wieder eine große Varianz an der genauen Form der mathematischen Gleichungen – niemand weiß so genau, welche Schicht an Neuronen am besten welche Form von Gleichungen verwenden soll. Solange die Qualität des Systems noch nicht stimmt, kann man aber an dem genauen Aufbau der Schichten arbeiten, und natürlich auch an der Form der Trainingsdaten und deren Menge und Qualität.
Es gibt also auch hier keinen Weg, der Objektivität garantiert: Jede Entscheidung würde zu anderen Antworten führen. Damit stellt sich die Frage danach, wann KI-Systeme in ihren Berechnungen verlässlich und nachvollziehbar sind, denn nur dann könnten sie Menschen ersetzen.
Nachvollziehbarkeit
Die neuen KI-Systeme durchlaufen damit grundsätzlich zwei Phasen: Eine Trainingsphase, in der mithilfe von durch Menschen ausgesuchte Daten der Vergangenheit mit einer statistischen Methode Regeln automatisch extrahiert und in einer bestimmten Form, einem sogenannten statistischen Modell, abgelegt werden. Dieses Modell kann ein Entscheidungsbaum sein oder ein neuronales Netzwerk. Die „Intelligenz“ liegt dabei in der Reihenfolge der gestellten Fragen beziehungsweise in den gelernten Gewichten der Formeln. In der zweiten Phase werden diese Regeln dann genutzt, um für eine neue Situation eine Entscheidung zu berechnen, oder einen Text zu schreiben, ein Bild zu pixeln oder eine Audiodatei herzustellen.
Diese zweite Phase ist vollständig nachvollziehbar, da die neuen Eingabedaten das statistische Modell durchlaufen und sehr simple Berechnungen zum Ergebnis führen. Was uns diese Methoden aber nicht erlauben, ist, die Beweggründe für eine computergenerierte Entscheidung zu verstehen. Schließlich wurden nur statistische Auffälligkeiten in den Trainingsdaten gespeichert: Ob diese aber wirklich relevant oder nur eine sogenannte statistische Korrelation sind, also eine statistische Auffälligkeit, die für das zu verstehende Phänomen kausal keine Rolle spielt, kann uns keiner sagen. Die Maschinen sind in diesem Sinne black boxes, also undurchdringliche Systeme.
Darin sind sie unseren Haustieren und selbst der Lieblingskollegin nicht ganz unähnlich: Am Ende können wir auch bei unserem Hund niemals vollständig vorhersagen, was er tun wird oder warum er etwas getan hat. Aber unsere jeweilige Intelligenz hat eine gemeinsame Basis, auf der wir aufbauen können – diese fehlt mit den Maschinen. Bei der Lieblingskollegin kommen weitere Aspekte hinzu, mit der wir ihre Entscheidungen nachvollziehen können: Unsere jeweilige Ausbildung hat Prozesse zur Verfügung gestellt, mit der Entscheidungen nachvollziehbar werden, und wir haben eine gemeinsame Sprache, um uns unsere Beweggründe für eine Entscheidung verständlich zu machen. Dass es dabei immer noch Lücken gibt und wir uns als Menschen selbst gar nicht immer sicher sind, warum wir etwas entschieden haben, und dies vielleicht nur im Nachhinein rationalisieren, sei einmal dahingestellt. Trotzdem bleibt uns diese gemeinsame Basis der Entscheidungsprozesse und Kommunikation über Entscheidungen, die bei KI-Systemen fehlen. Damit komme ich zu der eingangs gestellten Frage: Können KI-Systeme uns ersetzen?
Austauschbar?
Ich beantworte diese Frage zuerst für solche Systeme, die Entscheidungen treffen oder menschliche Entscheidungen durch Computerberechnungen unterstützen sollen. Damit eine Maschine uns in unseren Entscheidungen ersetzen kann, muss sie dies verlässlich tun können. Wir müssen uns also darauf verlassen können, dass sie in allen Situationen, in denen wir sie nutzen, das tut, was ein vernunftbegabter Mensch auch tun würde.
Da wir den Prozess der Entscheidungsfindung, also die Frage, welche Eingabedaten warum wie bewertet werden, mit der Maschine nicht klären können, bleibt uns nur übrig, das Verhalten der Maschine in verschiedenen Situationen zu beobachten und zu bewerten. Das ist deutlich schlechter, als sich von einem Menschen erklären zu lassen, wie er zu seinem Handeln kommt, weil man dann immer nur eine Aussage über diejenigen Situationen treffen kann, in der man das Verhalten beobachtet hat. Der von einem Menschen dargelegte Entscheidungsprozess hingegen erlaubt es uns, zu bewerten, wie die Entscheidungen dieses Menschen in einer weiten Reihe von Situationen gefällt werden. Diese Einschränkung auf die reine Verlässlichkeitsüberprüfung von automatisierten Entscheidungen führt dazu, dass man – basierend auf der heutigen Technologie – KI-Systeme dort nicht einsetzen kann, wo man die Qualität von Entscheidungen nicht bewerten kann.
Dies gilt etwa für sogenannte singuläre Entscheidungen, also solche, die keine historischen Vorbilder haben und in der die Auswirkungen von der genauen Ausgangssituation abhängen. Hierunter fallen fast alle politischen Entscheidungen, etwa in der Corona-Pandemie. Auch im Nachhinein können die Entscheidungen für oder gegen Lockdowns verschiedener Länder aufgrund der jeweils unterschiedlichen demografischen Situationen nur grob in ihrer Qualität bewertet werden. Denn es fehlt sowohl an Trainingsdaten, an Nachvollziehbarkeit (also Begründungen) als auch an einer Qualitätsüberprüfung der Verlässlichkeit. KI-Systeme können daher menschliche Entscheidungen hier prinzipiell nicht ersetzen.
In der Politik geht es aber immer auch um Werturteile, wenn verschiedene, miteinander konkurrierende Maßnahmen bewertet werden sollen. Werturteile (judgments) sind solche, in denen sich Experten und Expertinnen nicht beliebig uneinig sein dürfen.
Das geht oftmals dann, wenn die Maschine Risikoberechnungen anstellen soll. Sie teilt dann beispielsweise Versicherungsereignisse oder auch Menschen in verschiedene Risikoklassen. Später lässt sich dann nachrechnen, etwa bei Autoversicherungen, ob die Einteilung in eine Hochrisikoklasse gerechtfertigt war. Schwierig wird es dann, wenn die Klassifizierung die Zukunft verändert: Ein Mensch, der vor Gericht steht und dem eine Maschine ein hohes Risiko für Rückfälligkeit zuweist, wird unter Umständen eine höhere Gefängnisstrafe bekommen als eine Person, die nur ein niedriges Risiko zugewiesen bekommt. Durch die Gefängnisstrafe verändert sich aber die Aussicht, nach der Haft wieder eine Arbeit zu bekommen, was wiederum die Wahrscheinlichkeit für weitere Straftaten verändert. In solchen zukunftsverändernden Situationen kann also in der Zukunft nicht überprüft werden, wie gut die Entscheidung der Maschine war. Bei Risikoentscheidungen kann uns die Maschine also nur in ausgewählten Fällen ersetzen.
Am einfachsten ist es, wenn die Maschine Fakten berechnet. Fakten sind Aussagen, die mit einer Methode intersubjektiv feststellbar sind. Intersubjektiv heißt hierbei, dass jeder Mensch, der der Methode folgt, auf dasselbe Ergebnis kommt. Das Ergebnis einer Maschine, die Schrauben auf Fehlerhaftigkeit prüft und aussortiert, kann jederzeit überprüft und auf seine Qualität hin bewertet werden. Faktenerkennende Maschinen können Menschen dann ersetzen, wenn ihre Qualität hoch genug ist.
Damit kann für die Frage nach der Ersetzbarkeit von menschlichen Entscheidungen durch maschinelle Entscheidung die folgende Schlussfolgerung getroffen werden: Maschinen können uns basierend auf maschinellem Lernen grundsätzlich keine Begründung für ihre Entscheidungen geben. Daher können sie uns in unseren Entscheidungen nur dann ersetzen, wenn wir diese wenigstens auf Verlässlichkeit prüfen können. Dies ist nur bei faktischen Entscheidungen und in eingeschränkter Form bei Risikobewertungen der Fall. Werturteile und insbesondere singuläre Entscheidungen, wie sie in der Politik gang und gäbe sind, können nicht von Maschinen ersetzt werden.
Daneben gibt es aber auch KI-Systeme, die etwas generieren – man nennt sie deshalb generative KI. Dazu gehören ChatGPT, das famose Sprachprogramm, das in der Lage ist, Texte zu schreiben, und MidJourney, das aus Beschreibungen Bilder generieren kann. Andere KI-Systeme können Videos produzieren, Audiodateien erstellen oder eine Übersetzung anfertigen. Auch hier können wir Verlässlichkeit nicht umfassend prüfen – zum einen, weil nicht klar ist, was „die beste Antwort“ jeweils wäre, zum anderen, weil es einfach viel zu viele Anwendungsmöglichkeiten gibt, die nicht alle systematisch getestet werden können. Aber was Menschen hier am meisten interessiert, ist die Frage: Wird die Maschine uns auch in unseren kreativen Tätigkeiten ersetzen?
Ist die Maschine kreativ?
Was bedeutet Kreativität? Im Wesentlichen geht es darum, aus einem Raum der Möglichkeiten etwas Neues zu schöpfen, das weder zu offensichtlich noch zu absurd ist. Menschen wollen von Kreativität überrascht werden, sie aber auch noch einordnen können. Das wirklich Neue darf sich vom Bekannten dabei nicht zu weit entfernen, es muss bei seinen Rezipienten noch verarbeitbar sein. Zu dieser grundlegenden Beobachtung kommt noch ein zeitlicher Aspekt hinzu: Was neu und kreativ ist, wird es in den folgenden Jahren nicht mehr sein. Wer von Salvador Dalís Darstellung der Zeit in Form von zerflossenen, verformten Uhren 1931 noch elektrisiert war, wird ähnliche Darstellungen schnell langweilig finden. Kreativität heißt also, den sich dynamisch veränderlichen sweetspot zu finden, den andere Menschen als kreativ empfinden.
Dazu müsste eine Maschine verlässlich mit den neuesten Trends und Daten darüber, wie diese bei Menschen angekommen sind, trainiert werden. Das halte ich auch künftig für eher schwierig. Die Maschine kann helfen, neue Assoziationen herzustellen – auch auf eine für den Menschen überraschende Art und Weise. Das maschinelle Lernen beruht schließlich auf Assoziationsverfahren, es ist also nicht erstaunlich, dass dabei auch solche Assoziationen herauskommen, die uns überraschen, erheitern oder bestürzen. Es verhält sich jedoch eher so, als hätte man plötzlich Hunderte von Gesellen im ersten Lehrjahr: viele interessante Ideen, die aber noch nicht ganz da sind, wo man sie bräuchte.
Menschen und menschliche Kreativität lassen sich daher auch in den nächsten Jahren nicht durch KI-Systeme ersetzen. Unbestritten ist aber, dass diejenigen Personen sehr viel schneller sein werden, die ihre Ideen computerverständlich formulieren können (sogenanntes prompt engineering) und aufbauend auf dessen Vorschlägen dann die wirklich kreativen Ideen ausarbeiten können. Sehr viel Bewegung wird es allerdings dort geben, wo die Ideen nicht wirklich kreativ sein müssen, sondern nur unterhaltsam oder sogar nur ein Wohlgefühl auslösen sollen: Wenn es etwa darum geht, beim Rezipienten Erinnerungen zu wecken. Ein neues Apfelkuchenrezept soll möglichst noch nach Großmutters Sonntagskuchen schmecken und nicht gleich ein dekonstruiertes Dessert werden.
Das Fazit lautet damit: Die KI wird den Menschen bei Entscheidungen auf absehbare Zeit nur dort ersetzen, wo sie Fakten oder Risiken erkennen soll – und wo sie dies mit ausreichender Qualität und Schnelligkeit erledigt. Der Rest bleibt dem Menschen vorbehalten. Im Bereich Kreativität kann die Maschine Ideen dort ersetzen, wo es um Assoziationen geht, die nahe am Offensichtlichen sind. Wirklich kreativ können sie nicht werden, weil sie den feinen Unterschied zwischen Offensichtlichem und Absurdem nicht erkennen, den kreativen sweetspot nicht treffen können. Ganz sicher aber wird der Mensch, der die Möglichkeiten und Limitationen von KI-Systemen für seine Arbeit erkennt, diejenige Person ersetzen, die dies nicht tut.