Das KI-Tool von Microsoft kann Fotos in realistische Videos von sprechenden und singenden Menschen umwandeln

Microsoft Research Asia hat ein neues experimentelles KI-Tool namens VASA-1 vorgestellt, das ein Standbild einer Person – oder die Zeichnung einer Person – und eine vorhandene Audiodatei aufnehmen kann, um daraus in Echtzeit ein lebensechtes sprechendes Gesicht zu erstellen. Es verfügt über die Fähigkeit, Gesichtsausdrücke und Kopfbewegungen für ein vorhandenes Standbild sowie die passenden Lippenbewegungen passend zu einer Rede oder einem Lied zu erzeugen. Die Forscher haben eine Menge Beispiele auf die Projektseite hochgeladen, und die Ergebnisse sehen so gut aus, dass sie Menschen glauben lassen könnten, sie seien real.

Während die Lippen- und Kopfbewegungen in den Beispielen bei näherer Betrachtung immer noch etwas roboterhaft und nicht synchron wirken könnten, ist dennoch klar, dass die Technologie missbraucht werden könnte, um einfach und schnell Deepfake-Videos von echten Menschen zu erstellen. Die Forscher selbst sind sich dieses Potenzials bewusst und haben beschlossen, „keine Online-Demo, API, ein Produkt, zusätzliche Implementierungsdetails oder damit verbundene Angebote“ zu veröffentlichen, bis sie sicher sind, dass ihre Technologie „verantwortungsvoll und bestimmungsgemäß genutzt wird“. Vorschriften.“ Sie sagten jedoch nicht, ob sie planen, bestimmte Sicherheitsvorkehrungen zu treffen, um zu verhindern, dass böswillige Akteure sie für schändliche Zwecke nutzen, etwa für die Erstellung von Deepfake-Pornos oder Fehlinformationskampagnen.

Die Forscher glauben, dass ihre Technologie trotz des Missbrauchspotenzials viele Vorteile hat. Sie sagten, es könne zur Verbesserung der Bildungsgerechtigkeit sowie zur Verbesserung der Zugänglichkeit für Menschen mit Kommunikationsschwierigkeiten genutzt werden, indem man ihnen möglicherweise Zugang zu einem Avatar verschafft, der für sie kommunizieren kann. Es könne auch Begleitung und therapeutische Unterstützung für diejenigen bieten, die es brauchen, sagten sie und deuteten an, dass VASA-1 in Programmen verwendet werden könnte, die Zugang zu KI-Charakteren bieten, mit denen Menschen sprechen können.

Laut dem mit der Ankündigung veröffentlichten Papier wurde VASA-1 auf dem VoxCeleb2-Datensatz trainiert, der „über 1 Million Äußerungen von 6.112 Prominenten“ enthält, die aus YouTube-Videos extrahiert wurden. Obwohl das Tool auf echte Gesichter trainiert wurde, funktioniert es auch auf künstlerischen Fotos wie der Mona Lisa, die die Forscher auf amüsante Weise mit einer Audiodatei von Anne Hathaways viraler Interpretation von Lil Wayne kombinierten Paparazzi. Es ist so entzückend, dass es einen Blick wert ist, auch wenn Sie daran zweifeln, was eine solche Technologie nützen kann.

Dieser eingebettete Inhalt ist in Ihrer Region nicht verfügbar.

Dieser Artikel enthält Affiliate-Links; Wenn Sie auf einen solchen Link klicken und einen Kauf tätigen, erhalten wir möglicherweise eine Provision.

source site

Leave a Reply