Ein KI-Startup hat ein hyperrealistisches Deepfake von mir gemacht, das so gut ist, dass es gruselig ist

Je mehr Datenpunkte das KI-System zu Gesichtsbewegungen, Mikroausdrücken, Kopfneigungen, Blinzeln, Schulterzucken und Handbewegungen hat, desto realistischer wird der Avatar sein.

DAVID WINTINER

Dann bittet er mich, ein Drehbuch für einen fiktiven YouTuber in verschiedenen Tonlagen vorzulesen und weist mich auf das Spektrum der Emotionen hin, die ich vermitteln soll. Zuerst soll ich es neutral und informativ lesen, dann ermutigend, genervt und meckernd und schließlich aufgeregt und überzeugend.

„Hey, alle zusammen – willkommen zurück Erhöhe sie mit Ihrer Gastgeberin Jess Mars. Schön, dass Sie hier sind. „Wir sind dabei, uns einem Thema zu widmen, das ziemlich heikel ist und uns ehrlich gesagt sehr nahe kommt – der Umgang mit Kritik auf unserer spirituellen Reise“, lese ich vom Teleprompter ab und versuche mir gleichzeitig vorzustellen, wie ich in der beschwerdelastigen Version gegenüber meinem Partner über etwas schimpfe . „Egal wo man hinschaut, es fühlt sich so an, als gäbe es immer eine kritische Stimme, die bereit ist, sich einzumischen, nicht wahr?“

Sei kein Müll, sei kein Müll, sei kein Müll.

“Das war sehr gut. Ich schaute es mir an und dachte: „Nun, das ist wahr.“ Sie beschwert sich definitiv“, sagt Oshinyemi aufmunternd. Nächstes Mal sollten Sie vielleicht etwas Urteilsvermögen hinzufügen, schlägt er vor.

Wir filmen mehrere Takes mit unterschiedlichen Variationen des Drehbuchs. In einigen Versionen darf ich meine Hände bewegen. In anderen Fällen bittet mich Oshinyemi, wie ich eine Metallnadel zwischen meinen Fingern zu halten. Damit sollen die „Grenzen“ der Fähigkeiten der Technologie bei der Kommunikation mit Händen getestet werden, sagt Oshinyemi.

„In der Vergangenheit war es eine sehr schwierige Herausforderung, KI-Avataren ein natürliches Aussehen zu verleihen und Mundbewegungen an die Sprache anzupassen“, sagt David Barber, Professor für maschinelles Lernen am University College London, der nicht an der Arbeit von Synthesia beteiligt ist. Denn das Problem geht weit über die Mundbewegungen hinaus; Man muss an Augenbrauen denken, an alle Muskeln im Gesicht, an Schulterzucken und an die zahlreichen verschiedenen kleinen Bewegungen, mit denen Menschen sich ausdrücken.

Motion-Capture-Bühne mit Detail eines Mocap-Mustereinsatzes
Beim Motion-Capture-Prozess werden Referenzmuster verwendet, um das aus mehreren Winkeln aufgenommene Filmmaterial rund um das Motiv auszurichten.

DAVID WINTINER

Synthesia arbeitet seit 2020 mit Schauspielern zusammen, um seine Modelle zu trainieren, und ihre Doubles bilden die 225 Standard-Avatare, die Kunden zur Verfügung stehen, um sie mit ihren eigenen Drehbüchern zu animieren. Aber um seine neueste Generation von Avataren zu trainieren, benötigte Synthesia mehr Daten; Im vergangenen Jahr hat es mit rund 1.000 professionellen Schauspielern in London und New York zusammengearbeitet. (Synthesia gibt an, die gesammelten Daten nicht zu verkaufen, gibt jedoch einige davon für akademische Forschungszwecke frei.)

Früher wurden die Schauspieler jedes Mal bezahlt, wenn ihr Avatar verwendet wurde, aber jetzt zahlt ihnen das Unternehmen eine Vorabgebühr für das Training des KI-Modells. Synthesia nutzt ihre Avatare drei Jahre lang. Anschließend werden die Schauspieler gefragt, ob sie ihre Verträge verlängern möchten. Wenn ja, kommen sie ins Studio, um einen neuen Avatar zu erstellen. Andernfalls löscht das Unternehmen die Daten. Unternehmenskunden von Synthesia können auch ihre eigenen benutzerdefinierten Avatare erstellen, indem sie jemanden ins Studio schicken, der einen Großteil meiner Arbeit übernimmt.

source site

Leave a Reply