Die Ethik einer Deepfake-Stimme von Anthony Bourdain


Der Dokumentarfilm „Roadrunner: A Film About Anthony Bourdain“, der am Freitag in die Kinos kam, ist eine wütende, elegante, oft überwältigend emotionale Chronik des Lebens des verstorbenen Fernsehstars und seiner Wirkung auf die Menschen, die ihm nahe stehen. Unter der Regie von Morgan Neville porträtiert der Film Bourdain als intensiv, selbsthassend, unerbittlich getrieben, übernatürlich charismatisch und – in seinem Leben und in seinem Tod durch Selbstmord im Jahr 2018 – einen Mann, der das Leben der Menschen in seiner Umgebung sowohl fokussiert als auch störte ihm. Um die Erzählung des Films zu gestalten, griff Neville auf Zehntausende Stunden Videomaterial und Audioarchive zurück – und für drei bestimmte Zeilen des Films beauftragte Neville ein Softwareunternehmen, eine KI-generierte Version von Bourdains Stimme zu erstellen. Neuigkeiten zum synthetischen Audio, das Neville letzte Woche in Interviews mit mir und mit Brett Martin besprochen hat, unter GQSie provozierte bei Bourdains Fans ein auffallendes Maß an Wut und Unbehagen: „Nun, das ist gruselig“; “Das ist schrecklich“; “WTF?!“, sagten die Leute auf Twitter, wo die gefälschte Bourdain-Stimme zu einem Trendthema wurde. Der Kritiker Sean Burns, der den Dokumentarfilm negativ rezensiert hatte, twitterte: “Ich habe das Gefühl, dass Ihnen dies alles sagt, was Sie über die Ethik der Menschen hinter diesem Projekt wissen müssen.”

Als ich zum ersten Mal mit Neville sprach, war ich überrascht, von seiner Verwendung von synthetischem Audio zu erfahren, und war ebenso überrascht, dass er sich entschieden hatte, seine Präsenz in seinem Film nicht zu offenbaren. Er gab zu, die Technologie für einen bestimmten Voice-Over verwendet zu haben, nach dem ich gefragt hatte – in dem Bourdain unwahrscheinlich eine verzweifelte E-Mail vorliest, die er an einen Freund, den Künstler David Choe, geschickt hatte –, aber die anderen beiden der Dokumentation verriet er nicht Beispiele technologischer Zauberei. Die Erstellung eines synthetischen Bourdain-Voice-Overs erschien mir weit weniger krass als beispielsweise ein CGI, den Fred Astaire in einem Dirt Devil-Werbespot verkaufte, oder ein holografischer Tupac Shakur, der neben Snoop Dogg bei Coachella auftritt, und weitaus trivialer als die bewusste Verschmelzung von Belletristik und Sachbuch beispielsweise in Errol Morriss „Thin Blue Line“. Neville benutzte das KI-generierte Audio nur, um Text zu erzählen, den Bourdain selbst geschrieben hatte. Bourdain verfasste die Worte; er hat sie nur – nach unserem besten Wissen – nie laut ausgesprochen. Einige Kritiker von Neville behaupten, dass Bourdain das Recht haben sollte, die Art und Weise zu kontrollieren, wie seine geschriebenen Worte übermittelt werden. Aber gibt ein Mensch diese Kontrolle nicht jedes Mal auf, wenn sein Schreiben in die Welt hinausgeht? Der Akt des Lesens – ob E-Mail oder Roman, in unseren Köpfen oder laut – erfordert immer ein gewisses Maß an Interpretation. (Ich war mehr beunruhigt über die Tatsache, dass Neville sagte, er habe Bourdains ehemalige Freundin Asia Argento, die im Film als Agent seiner Entwirrung dargestellt wird, nicht interviewt.)

Außerdem ist der Dokumentarfilm wie das Schreiben von Sachbüchern eine breite und lose Kategorie, die alles von unbearbeitetem, unmanipuliertem Vérité bis hin zu hochkonstruierten und rekonstruierten Erzählungen umfasst. Winsor McCays Kurzfilm „The Sinking of the Lusitania“, ein Propagandafilm aus dem Jahr 1918, der als frühes Beispiel für animierte Dokumentarfilme gilt, wurde vollständig aus nachgestelltem und neu erstelltem Filmmaterial gedreht. Ari Folmans Oscar-nominierter „Waltz with Bashir“ aus dem Jahr 2008 ist eine filmische Kriegserinnerung, die durch Animationen erzählt wird, mit einem unzuverlässigen Erzähler und mit vollständig fiktiven Charakteren. Vérité sei „nur eine oberflächliche Wahrheit, die Wahrheit der Buchhalter“, schrieb Werner Herzog in seinem berühmten Manifest „Minnesota Declaration“. „Es gibt tiefere Wahrheitsschichten im Kino, und es gibt so etwas wie eine poetische, ekstatische Wahrheit. Es ist mysteriös und schwer fassbar und kann nur durch Erfindung, Vorstellungskraft und Stilisierung erreicht werden.“ Gleichzeitig haben „Deepfakes“ und andere computergenerierte synthetische Medien gewisse beunruhigende Konnotationen – politische Machenschaften, Fake News, Lügen, die das HD-gerenderte Gesicht der Wahrheit tragen – und es ist für Zuschauer und Filmemacher selbstverständlich, die Grenzen zu hinterfragen seines verantwortungsvollen Umgangs. Nevilles beiläufige Bemerkung in seinem Interview mit mir, dass „wir später ein dokumentarisches Ethik-Panel darüber haben können“ half den Leuten nicht, dass er diese Angelegenheiten ernst nahm.

Am Freitag habe ich mit zwei Leuten gesprochen, die für Nevilles hypothetisches Ethik-Panel gut qualifiziert wären, um mir zu helfen, das Gewirr ethischer und emotionaler Fragen zu entschlüsseln, die durch die drei Teile des „Roadrunner“-Audios (insgesamt nur fünfundvierzig Sekunden) aufgeworfen werden . Der erste, Sam Gregory, ist ein ehemaliger Filmemacher und Programmdirektor von Witness, einer gemeinnützigen Menschenrechtsorganisation, die sich auf ethische Anwendungen von Video und Technologie konzentriert. „In gewisser Hinsicht ist dies eine ziemlich geringfügige Verwendung einer synthetischen Medientechnologie“, sagte er mir. „Es sind ein paar Zeilen in einem Genre, in dem man manchmal Dinge konstruiert, wo es keine festen Normen darüber gibt, was akzeptabel ist.“ Aber, erklärte er, Nevilles Nachbildung und die Art und Weise, wie er sie benutzte, wirft grundlegende Fragen darüber auf, wie wir die ethische Nutzung synthetischer Medien definieren.

Die erste hat mit Zustimmung zu tun und was Gregory als unsere „Krankheit“ beschrieb, das Bild oder die Stimme einer verstorbenen Person zu manipulieren. In Nevilles Interview mit GQ, sagte er, dass er die KI-Idee mit Unterstützung von Bourdains engsten Kreisen verfolgt habe – „Ich habe bei seiner Witwe und seinem literarischen Testamentsvollstrecker nachgefragt, nur um sicherzustellen, dass die Leute damit cool sind“, sagte er. Aber am frühen Freitagmorgen, als die Nachricht von seinem Einsatz von KI abprallte, twitterte seine Ex-Frau Ottavia Busia: “Ich war sicherlich NICHT derjenige, der sagte, Tony wäre damit cool gewesen.” Am Samstagnachmittag schrieb mir Neville, dass die KI-Idee „Teil meiner anfänglichen Vorstellung war, Tony posthum den Film à la Sunset Boulevard erzählen zu lassen – einen von Tonys Lieblingsfilmen und einer, den er sogar auf Cooks Tour nachgestellt hatte“, fügte hinzu: „Ich wollte nicht andeuten, dass Ottavia dachte, Tony hätte es gefallen. Ich weiß nur, dass mir nie jemand Vorbehalte geäußert hat.“ (Busia erzählte mir in einer E-Mail, dass sie sich an die Idee von KI erinnerte, die in einem ersten Gespräch mit Neville und anderen auftauchte, aber dass sie nicht wusste, dass sie tatsächlich verwendet wurde, bis die Social-Media-Wirrwarr begann. “Ich glaube, Morgan dachte, er hätte den Segen aller, um voranzukommen”, schrieb sie. “Ich habe mich früh entschieden, mich aus dem Prozess zu entfernen, weil es mir einfach zu schmerzhaft war.”

Ein zweites Kernprinzip ist die Offenlegung – wie die Verwendung synthetischer Medien einem Publikum klar gemacht wird oder nicht. Gregory brachte das Beispiel von „Welcome to Chechnya“, dem Film aus dem Jahr 2020, über tschetschenische Aktivisten im Untergrund, die sich für die Befreiung von Überlebenden der gewalttätigen Anti-Schwulen-Säuberungen des Landes einsetzen. Der Regisseur des Films, David France, verließ sich auf die Deepfake-Technologie, um die Identität der Filmpersonen zu schützen, indem er ihre Gesichter gegen andere tauschte, aber er hinterließ einen leichten Schimmer um die Köpfe der Aktivisten, um seine Zuschauer auf die Manipulation aufmerksam zu machen – was Gregory als bezeichnete ein Beispiel für „kreative Signalgebung“. „Es ist nicht so, dass Sie etwas buchstäblich beschriften müssen – es ist nicht so, dass Sie jedes Mal, wenn Sie ein synthetisches Tool verwenden, etwas über den unteren Bildschirmrand schreiben müssen – aber es ist dafür verantwortlich, das Publikum nur daran zu erinnern, dass dies eine Darstellung ist“, sagte er . „Wenn man sich einen Dokumentarfilm von Ken Burns ansieht, steht nicht unter jedem Foto, das er animiert hat, ‚Rekonstruktion’. Aber es gibt Normen und Kontexte – wir versuchen, innerhalb der Natur des Genres zu überlegen, wie wir Manipulationen auf eine Weise zeigen können, die dem Publikum gegenüber verantwortlich ist und es nicht täuscht.“

Gregory schlug vor, dass ein Großteil des Unbehagens, das die Leute über „Roadrunner“ empfinden, auf die Neuheit der Technologie zurückzuführen sein könnte. „Ich bin mir nicht sicher, ob es wirklich viel darum geht, was der Regisseur in diesem Film gemacht hat – weil es uns dazu bringt, darüber nachzudenken, wie sich das in Bezug auf unsere Normen des Akzeptablen, unsere Erwartungen an die Medien entwickeln wird“, er sagte. „Es kann gut sein, dass wir uns in ein paar Jahren damit wohl fühlen, genauso wie wir uns damit wohl fühlen, wenn ein Erzähler ein Gedicht oder einen Brief aus dem Bürgerkrieg liest.“

„Es gibt wirklich tolle kreative Einsatzmöglichkeiten für diese Tools“, meine zweite Interviewpartnerin, Karen Hao, Redakteurin bei der MIT-Technologiebewertung der sich auf künstliche Intelligenz konzentriert, erzählte mir. „Aber wir müssen sehr vorsichtig sein, wie wir sie früh einsetzen.“ Sie brachte zwei kürzliche Implementierungen von Deepfake-Technologie zur Sprache, die sie für erfolgreich hält. Die erste, eine 2020-Kooperation zwischen Künstlern und KI-Unternehmen, ist eine synthetische Audio-Video-Darstellung von Richard Nixon, der seine berüchtigte Rede „In Event of Moon Disaster“ liest, die er gehalten hätte, wenn die Apollo 11-Mission gescheitert wäre und Neil Armstrong und Buzz Aldrin starb. („Das erste Mal, als ich es sah, bekam ich Schüttelfrost“, sagte Hao.) Die zweite, eine Episode von „Die Simpsons“, aus dem März, in der die Figur Mrs. Krabappel, gesprochen von der verstorbenen Schauspielerin Marcia Wallace, wiederbelebt wurde re indem sie Phoneme aus früheren Aufnahmen zusammenspleißt, hat sie ihren ethischen Lackmustest bestanden, weil in einer fiktiven Show wie “Die Simpsons” “Sie wissen, dass die Stimme der Person nicht repräsentiert” Sie, also gibt es weniger Anhaftung an die Tatsache, dass die Stimme gefälscht sein könnte“, sagte Hao. Aber im Kontext eines Dokumentarfilms „erwartest du nicht, plötzlich gefälschtes Filmmaterial zu sehen oder gefälschtes Audio zu hören“.

Ein besonders beunruhigender Aspekt des Bourdain-Stimmklons, spekulierte Hao, könnte seine Hybridisierung von Realität und Unwirklichkeit sein: „Er ist weder eindeutig gefälscht, noch ist er eindeutig echt, und die Tatsache, dass er war seine eigentlichen Worte bringen das nur noch mehr durcheinander.“ In der Welt der Rundfunkmedien sind Deepfake- und synthetische Technologien logische Nachfolger allgegenwärtiger – und erkennbarer – analoger und digitaler Manipulationstechniken. Gesichts-Renderings und Voice-Clones sind bereits eine aufstrebende Technologie in geskripteten Medien, insbesondere in High-Budget-Produktionen, wo sie eine Alternative zu mühsamen und teuren praktischen Effekten versprechen. Aber das Potenzial dieser Technologien wird untergraben, „wenn wir sie der Öffentlichkeit auf erschütternde Weise vorstellen“, sagte Hao und fügte hinzu: „Es könnte die Öffentlichkeit dazu bringen, eine negativere Wahrnehmung dieser Technologie zu haben, als vielleicht verdient.“ Die Tatsache, dass die synthetische Bourdain-Stimme unentdeckt blieb, bis Neville darauf hinwies, ist ein Teil dessen, was sie so beunruhigend macht: „Ich bin sicher, die Leute fragen sich: Wie viele andere Dinge habe ich gehört, von denen ich dachte, dass dies definitiv echt ist, denn dies würde jemand X sagen, und es wurde tatsächlich erfunden?“ sagte Hao. Trotzdem fügte sie hinzu: „Ich würde die Leute auffordern, dem Kerl“ – Neville – „ein bisschen Nachsicht zu geben. Das ist so neues Terrain. . . . Es ist völliges Neuland. Ich persönlich würde ihm gerne verzeihen, dass er eine Grenze überschritten hat, die es vorher nicht gab.“

.

Leave a Reply