Sora von OpenAI ist ein absolutes Mysterium

Ein neues Programm des ChatGPT-Herstellers verspricht, Videos aus einfachen Textaufforderungen zu erstellen, über die tatsächliche Funktionsweise ist jedoch wenig bekannt.

Eines der von OpenAI veröffentlichten Sora-Beispielvideos. Die gesamte Szene wurde von KI generiert. (Mit freundlicher Genehmigung von OpenAI)

Gestern Nachmittag stellte OpenAI Sora vor, ein Videogenerierungsmodell, das verspricht, geschriebene Textaufforderungen in äußerst realistische Videos umzuwandeln. Von der Firma veröffentlichtes Filmmaterial zeigt Beispiele wie „einen Shiba Inu-Hund mit Baskenmütze und schwarzem Rollkragenpullover“ und „in einer reich verzierten, historischen Halle erreicht eine gewaltige Flutwelle ihren Höhepunkt und beginnt zusammenzubrechen“. Die Aufregung in der Presse erinnerte an die Begeisterung um den Bildschöpfer DALL-E oder ChatGPT im Jahr 2022: Sora wird als „aufsehenerregend“ beschrieben.weltverändernd,“ und „atemberaubend und doch erschreckend.“

Die Bildsprache ist wirklich beeindruckend. Auf den ersten Blick sieht ein Beispiel eines animierten „Flauschmonsters“ besser aus als Shrek; Eine „extreme Nahaufnahme“ des Auges einer Frau, komplett mit einer Spiegelung der Szene vor ihr, ist verblüffend lebensecht. Aber auch Sora ist voller Geheimnisse. Niemand außerhalb einer ausgewählten Gruppe von von OpenAI zugelassenen Sicherheitstestern und Künstlern kann das Programm bisher nutzen (obwohl Sam Altman, der CEO des Unternehmens, dies getan hat). nehmen Sora fordert prompt Anfragen in den sozialen Medien und Veröffentlichung Die Ergebnisse). Das Modell könnte durchaus die Fantasien verwirklichen, die die Menschen bereits hegen. Vielleicht wird es ein Vorstellung Motor, eine filmische Revolution oder eine Fehlinformationsmaschine. Aber im Moment ist es am besten, es als Provokation oder Werbeblitz zu betrachten.

Obwohl viele dieser Produkte so mächtig sind, dass sie unsere Vorstellung von der Welt auf den Kopf stellen – oder ganz zerstören – neigen Unternehmen wie OpenAI dazu, ihr Innenleben nicht im Detail zu beschreiben. (Eine aktuelle Studie gab 10 großen Technologieunternehmen, darunter OpenAI, die Note „schlecht“ auf einem KI-Transparenzindex.) Die MIT Technology Review erhielt eine Vorschau der von Sora erstellten Beispielvideos erst, nachdem er der von seinen Journalisten als „ungewöhnlich“ bezeichneten Bedingung zugestimmt hatte, dass sie keine externen Meinungen einholen würden, bis OpenAI das Produkt angekündigt hatte; Zunächst lag der Veröffentlichung kein Forschungspapier bei.

Der technische Bericht, den OpenAI später veröffentlichte, enthält kurze, allgemeine Beschreibungen, die nur spärlich technische Details enthalten. Dies ist bei weitem nicht das erste Text-zu-Video-Modell (Meta stellte eines im September 2022 vor, etwa zwei Monate vor der Veröffentlichung von ChatGPT), aber im Moment verfügen Personen außerhalb des Unternehmens nicht über die Möglichkeit, Sora zu studieren oder zu testen und zu wissen, wie es aufgebaut ist Ein Vergleich mit Vorgängerprodukten ist ausgeschlossen. Aus dem Bericht geht hervor, dass, ähnlich wie bei den Sprachmodellen des Start-ups, die Qualität der Ergebnisse umso höher war, je mehr Rechenleistung OpenAI in Sora gepumpt hat – ein gruseliger Fellknäuel wird zu einem fotorealistischen, entzückenden Welpen, wenn er mit 16 generiert wird mal die Ressourcen. Abgesehen von jedem technologischen Durchbruch ist Sora möglicherweise das neueste und vielleicht spektakulärste Ergebnis der Milliarden von Dollar in den Kassen von OpenAI – ein Sieg sowohl hinsichtlich der Größenordnung als auch der Innovation.

Ein Sprecher von OpenAI teilte mir in einer schriftlichen Erklärung mit, dass das Unternehmen „unseren Forschungsfortschritt frühzeitig teilt, um mit Menschen außerhalb von OpenAI zusammenzuarbeiten und Feedback von ihnen zu erhalten und den Menschen einen Eindruck davon zu vermitteln, welche KI-Fähigkeiten sich am Horizont abzeichnen.“ Auf die Trainingsdaten angesprochen, gab der Sprecher lediglich an, dass das Modell auf „lizenzierten und öffentlich zugänglichen Inhalten“ trainiert werde; Auf die Frage nach möglichen Schäden sagte sie, das Unternehmen arbeite immer noch daran, „Fehlinformationen, hasserfüllte Inhalte und Voreingenommenheit“ zu bekämpfen.

OpenAI ist mit seiner Geheimhaltung nicht allein. Ebenfalls gestern kündigte Google eine aktualisierte Version seines Flaggschiff-Sprachmodells Gemini 1.5 an und bezeichnete es als „Durchbruch“. Aber außer einer kleinen Gruppe von Entwicklern und großen Unternehmenskunden wäre niemand in der Lage, die fortschrittlichsten Funktionen zu testen. Viele andere KI-Produkte werden ebenfalls ohne große Begleitinformationen veröffentlicht.

Wir wissen jedoch, dass Demos von KI-Produkten dazu neigen, Fehler zu enthalten, von denen einige geringfügiger und andere peinlich sind, und Sora ist da keine Ausnahme. Nach eigenen Angaben von OpenAI hat es Probleme mit der Darstellung von Physik, Ursache und Wirkung (das Unternehmen gibt an, dass man nach einem Video einer Person fragen könnte, die in einen Keks beißt, nur um dann festzustellen, dass keine Bissspur zurückbleibt) und anderen einfachen Details ( ein Mann läuft auf einem Laufband in die falsche Richtung). Internetdetektive haben noch andere Fehler aufgedeckt, etwa das Verschwinden von Gegenständen und deformierte Hände. Nichtsdestotrotz erscheint das Produkt erstaunlich – was trotz aller Aufregung äußerst bekannte, aber dennoch ernsthafte Bedenken hinsichtlich Deepfakes, Urheberrechtsverletzungen, Lebensunterhalt von Künstlern, versteckten Vorurteilen und vielem mehr aufkommen lässt.

Unterdessen wimmelt es im Internet von paparazziartigen Theorien und Beobachtungen: Vermutungen darüber, wie Sora funktioniert; Unterstellungen, dass Sora noch keine neuen Dinge hervorbringt Kopieren vorhandene Videos; Vergleiche zeigen Ähnlichkeiten zwischen seinen Videos und den Ausgaben eines führenden Text-zu-Bild-Modells. Diese Bedenken können vorerst weder als richtig noch als falsch angesehen werden. Die Öffentlichkeit versteht das Innenleben von DALL-E und ChatGPT immer noch kaum, aber zumindest können wir die Fähigkeiten dieser Produkte selbst testen; Mit Soras Ankündigung betritt OpenAI das Reich der Mythenbildung.


source site

Leave a Reply