OpenAI stellt ein erstaunliches neues generatives Videomodell namens Sora vor

Es kann einige Zeit dauern, bis wir es herausfinden. Die heutige Ankündigung von Sora durch OpenAI ist ein technischer Scherz und das Unternehmen gibt an, dass es derzeit keine Pläne hat, es der Öffentlichkeit zugänglich zu machen. Stattdessen wird OpenAI heute erstmals damit beginnen, das Modell mit externen Sicherheitstestern zu teilen.

Das Unternehmen ist insbesondere besorgt über den möglichen Missbrauch gefälschter, aber fotorealistischer Videos. „Wir sind bei der Bereitstellung hier vorsichtig und stellen sicher, dass wir alle unsere Grundlagen abgedeckt haben, bevor wir es in die Hände der breiten Öffentlichkeit legen“, sagt Aditya Ramesh, Wissenschaftler bei OpenAI, der das Text-zu-Bild-Modell des Unternehmens entwickelt hat DALL-E.

OpenAI plant jedoch, irgendwann in der Zukunft ein Produkt auf den Markt zu bringen. Neben Sicherheitstestern teilt das Unternehmen das Modell auch einer ausgewählten Gruppe von Videomachern und Künstlern, um Feedback zu erhalten, wie Sora für Kreativprofis so nützlich wie möglich gemacht werden kann. „Das andere Ziel besteht darin, allen zu zeigen, was sich am Horizont abzeichnet, und eine Vorschau darauf zu geben, wozu diese Modelle in der Lage sein werden“, sagt Ramesh.

Um Sora zu entwickeln, passte das Team die Technologie hinter DALL-E 3 an, der neuesten Version des Flaggschiff-Text-zu-Bild-Modells von OpenAI. Wie die meisten Text-zu-Bild-Modelle verwendet DALL-E 3 ein sogenanntes Diffusionsmodell. Diese sind darauf trainiert, einen Haufen zufälliger Pixel in ein Bild umzuwandeln.

Sora verfolgt diesen Ansatz und wendet ihn auf Videos statt auf Standbilder an. Doch die Forscher fügten der Mischung noch eine weitere Technik hinzu. Im Gegensatz zu DALL-E oder den meisten anderen generativen Videomodellen kombiniert Sora sein Diffusionsmodell mit einer Art neuronalem Netzwerk, das als Transformator bezeichnet wird.

Transformatoren eignen sich hervorragend für die Verarbeitung langer Datensequenzen wie Wörter. Das hat sie zur Spezialität großer Sprachmodelle wie GPT-4 von OpenAI und Gemini von Google DeepMind gemacht. Aber Videos bestehen nicht aus Worten. Stattdessen mussten die Forscher einen Weg finden, Videos in Stücke zu schneiden, die so behandelt werden konnten, als ob sie es wären. Der Ansatz, den sie entwickelten, bestand darin, Videos sowohl räumlich als auch zeitlich aufzuteilen. „Es ist, als hätte man einen Stapel aller Videobilder und würde daraus kleine Würfel schneiden“, sagt Brooks.

Der Transformator in Sora kann diese Videodatenblöcke dann auf die gleiche Weise verarbeiten, wie der Transformator in einem großen Sprachmodell Wörter in einem Textblock verarbeitet. Die Forscher sagen, dass sie Sora dadurch viel mehr Videotypen trainieren konnten als andere Text-zu-Video-Modelle, einschließlich unterschiedlicher Auflösungen, Dauer, Seitenverhältnis und Ausrichtung. „Es hilft dem Modell wirklich“, sagt Brooks. „Dazu sind uns keine bestehenden Arbeiten bekannt.“

OpenAI ist sich der Risiken bewusst, die ein generatives Videomodell mit sich bringt. Wir erleben bereits den großflächigen Missbrauch von Deepfake-Bildern. Fotorealistische Videos bringen dies auf eine andere Ebene.

source site

Leave a Reply