Im Text
Der Ursprung von Deepfakes liegt auf der Plattform Reddit. Ende 2017 wurden dort von einem Nutzer mit dem Pseudonym „Deepfakes“ manipulierte pornografische Videos mit den Gesichtern berühmter Schauspielerinnen
Die Erstellung von Trainingsdatensätzen ist denkbar einfach, da man nur wenige Minuten bis hin zu wenigen Sekunden Video bzw. Audio benötigt, um glaubhafte Deepfakes produzieren zu können. Die Erzeugung eines Video-Deepfakes ist auch mit nur einem Bild möglich, allerdings ist die schlechte Qualität dieser Deepfakes oft auch für das ungeübte Auge erkennbar. In der Regel verbessert sich die resultierende Qualität mit einem größeren Trainingsdatensatz, bis eine Unterscheidung zu echten Videos nicht mehr möglich ist. Fünf Minuten Video oder Audio reichen oft aus, wobei die Tendenz besteht, dass zukünftig Algorithmen mit zunehmend weniger Daten glaubhafte Resultate liefern.
Das Steuern von Deepfakes kann auf unterschiedliche Weise erfolgen. Stimmen können durch Verfahren generiert werden, die Text in eine authentische Audiospur umwandeln, oder durch eine direkte Stimmenkonvertierung. Dabei kann der Autor seine Stimme aufnehmen, welche anschließend in die Zielstimme umgewandelt wird. Bei Video-Deepfakes wird in der Regel nur das Gesicht der Zielperson in einem bereits bestehenden Video ersetzt. Das bedeutet, dass der untere Teil der Stirn, der Augen, Nase, Mund und Kinn neu animiert werden. Oft auch nur der Bereich um den Mund und das Kinn, damit die Lippensynchronität mit einem Audio Deepfake gewährleistet ist. Dabei orientieren sich die synthetisierten Mundbewegungen an dem Inhalt des Audio Deepfakes. Die Bereiche der Haare, Ohren, Hals und damit auch die gesamte Kopfposition und Rotation werden oft nicht neu animiert. Alternativ kann der Video-Deepfake auch durch das Gesicht einer anderen Person gesteuert werden, so dass die Zielperson im Deepfake die Gesichtsausdrücke einer anderen Person repliziert. Deepfakes auf Basis von Bildern werden in der Regel nur mit Texteingabe, so genannten Prompts, realisiert.
Ein praktisches Beispiel wie ein Video
Deepfake entsteht
Stellen wir uns einen Algorithmus vor, der den Gesichtsausdruck einer Person in einem Bild in 100 Werte zwischen 0 und 1 kodieren kann. Wenn die Person in einem Bild beispielsweise lacht, könnte der neunte Wert 0,95 sein. Die anderen Werte könnten Informationen über die Augenbrauen, die Blickrichtung und andere Merkmale eines Gesichtsausdrucks enthalten.
Angenommen, wir haben eine Reihe von Bildern des amtierenden Bundeskanzlers Olaf Scholz während einer Rede und für jedes Bild haben wir diese kodierten Gesichtsausdrücke. Der Trainingsdatensatz besteht also aus Einzelbildern aus dem Video, und zu jedem Bild sind die entsprechenden 100 Gesichtsparameter gespeichert. Beim Training eines neuronalen Netzes für Deepfakes erhält das Netz ein Eingangssignal (das sind die 100 Werte für die Gesichtsausdrücke), woraufhin es eine Vorhersage generiert, in unserem Fall ein Bild von Olaf Scholz. Dieses generierte Bild wird nun mit dem entsprechenden echten Referenzbild aus dem Trainingsdatensatz verglichen. Dies ist das Bild, dem die 100 zuvor kodierten Gesichtsparameter zugeordnet wurden.
Zu Beginn des Trainings erzeugt das Netz zufällige Bilder, die keine erkennbare Struktur aufweisen. Mit der Zeit lernt das Netz jedoch die Zusammenhänge zwischen den Eingangsdaten (den Gesichtsparametern) und dem echten Referenzbild. Dieses Lernen wird durch die Fehlerfunktion ermöglicht. Die Fehlerfunktion für Video-Deepfakes gibt einen Zahlenwert wieder, der den Unterschied zwischen zwei Bildern ausdrückt. Gibt man z.B. zwei identische Bilder in die Fehlerfunktion ein, so erhält man den Wert 0, d.h. es ist kein Fehler zu messen. Je unterschiedlicher die beiden Bilder sind, desto größer ist der Fehlerwert. Dieser Fehler, bezogen auf das Referenzbild aus dem Trainingsdatensatz, wird dem Netz für jedes von ihm erzeugte Bild mitgeteilt. Das Ziel des neuronalen Netzes während des Trainings ist es, diesen Fehlerwert zwischen dem echten Referenzbild und dem von ihm erzeugten Bild zu minimieren. Dieser Prozess kann mit dem Spiel „Topfschlagen“ verglichen werden: Je weiter man vom Topf entfernt ist, desto lauter wird „ganz kalt“ gerufen (großer Fehlerwert). Je näher man dem Topf kommt, desto lauter hört man „wärmer“, „sehr heiß“ (Fehlerwert klein), bis man schließlich den Topf findet (das erzeugte Bild mit dem Referenzbild nahezu identisch). Während des Trainings durchläuft das neuronale Netz viele Millionen Durchläufe dieses „Topfschlagens“.
Durch diesen kontinuierlichen Prozess lernt das neuronale Netz, immer realistischere Bilder zu erzeugen, die den vorgegebenen 100 Gesichtsparametern entsprechen. Das Ergebnis ist, dass das neuronale Netz einen Zusammenhang zwischen den 100 Gesichtsparametern und den Ausgabebildern gelernt hat. Ist der neunte Wert 0,95 so lacht Olaf Scholz nun auch im synthetisierten Bild. Im Anschluss kann eine weitere KI die 100 Gesichtsparameter entsprechend auf einen Audio-Deepfake lippensynchron animieren, so dass die Mundbewegung zum Gesagten passt. Die einzelnen Bilder werden zu einem Video zusammengefügt, sind nun täuschend echt und spiegeln die Mimik und Gesichtszüge der „trainierten“ Person exakt wider.
Technische Entwicklung und Trends
Wie oben bereits erwähnt, zeichnet sich der Trend ab, dass die Qualität der Systeme stetig zunimmt. Hinzu kommt, dass unabhängige Entwicklerinnen und Entwickler, die oft nur unter einem Pseudonym bekannt sind, Systeme ohne Sicherheitsbarrieren veröffentlichen. Das bedeutet, dass qualitativ hochwertige Bilder, Videos oder Stimmen tendenziell leichter ohne Sicherheitsabfragen erzeugt werden können. Ein weiterer Trend ist die Verkürzung der Generierungszeit von Audio- und Videoinhalten bis hin zur Echtzeitfähigkeit. So wird es immer einfacher, Telefongespräche oder Videokonferenzen mit Deepfakes zu realisieren.