Generative KI verändert alles. Aber was bleibt, wenn der Hype vorbei ist?

Der große Durchbruch hinter den neuen Modellen liegt in der Art und Weise, wie Bilder generiert werden. Die erste Version von DALL-E verwendete eine Erweiterung der Technologie hinter dem Sprachmodell GPT-3 von OpenAI und erzeugte Bilder, indem sie das nächste Pixel in einem Bild vorhersagten, als wären es Wörter in einem Satz. Das funktionierte, aber nicht gut. „Es war keine magische Erfahrung“, sagt Altman. „Erstaunlich, dass es überhaupt funktioniert hat.“

Stattdessen verwendet DALL-E 2 ein sogenanntes Diffusionsmodell. Diffusionsmodelle sind neuronale Netze, die darauf trainiert sind, Bilder zu bereinigen, indem pixeliges Rauschen entfernt wird, das durch den Trainingsprozess hinzugefügt wird. Der Prozess beinhaltet das Aufnehmen von Bildern und das Ändern einiger Pixel auf einmal in vielen Schritten, bis die Originalbilder gelöscht sind und Sie nur noch zufällige Pixel übrig haben. „Wenn man das tausend Mal macht, sieht das Bild irgendwann so aus, als hätte man das Antennenkabel von seinem Fernseher gerissen – es ist nur Schnee“, sagt Björn Ommer, der an der Universität München in Deutschland an generativer KI arbeitet und beim Aufbau mitgeholfen hat das Diffusionsmodell, das jetzt Stable Diffusion antreibt.

Das neuronale Netzwerk wird dann darauf trainiert, diesen Prozess umzukehren und vorherzusagen, wie die weniger pixelige Version eines bestimmten Bildes aussehen würde. Das Ergebnis ist, dass, wenn Sie einem Diffusionsmodell ein Durcheinander von Pixeln geben, es versuchen wird, etwas Saubereres zu erzeugen. Stecken Sie das bereinigte Bild wieder ein, und das Modell wird noch etwas Saubereres erzeugen. Tun Sie dies oft genug und das Modell kann Sie vom Fernsehschnee bis zu einem hochauflösenden Bild führen.

KI-Kunstgeneratoren funktionieren nie genau so, wie Sie es möchten. Sie produzieren oft abscheuliche Ergebnisse, die bestenfalls verzerrter Stock-Art ähneln können. Meiner Erfahrung nach besteht die einzige Möglichkeit, die Arbeit wirklich gut aussehen zu lassen, darin, am Ende einen Deskriptor mit einem ästhetisch ansprechenden Stil hinzuzufügen.

~Erik Carter

Der Trick bei Text-zu-Bild-Modellen besteht darin, dass dieser Prozess vom Sprachmodell geleitet wird, das versucht, eine Eingabeaufforderung mit den Bildern abzugleichen, die das Diffusionsmodell erzeugt. Dies drängt das Diffusionsmodell zu Bildern, die das Sprachmodell als gut passend betrachtet.

Die Verknüpfungen zwischen Text und Bild ziehen die Models aber nicht aus dem Nichts. Die meisten Text-zu-Bild-Modelle werden heute auf einem großen Datensatz namens LAION trainiert, der Milliarden von Text-Bild-Paarungen aus dem Internet enthält. Das bedeutet, dass die Bilder, die Sie von einem Text-zu-Bild-Modell erhalten, eine Destillation der Welt sind, wie sie online dargestellt wird, verzerrt durch Vorurteile (und Pornografie).

Eine letzte Sache noch: Es gibt einen kleinen, aber entscheidenden Unterschied zwischen den beiden beliebtesten Modellen DALL-E 2 und Stable Diffusion. Das Diffusionsmodell von DALL-E 2 funktioniert mit Bildern in voller Größe. Stable Diffusion hingegen verwendet eine Technik namens latente Diffusion, die von Ommer und seinen Kollegen erfunden wurde. Es arbeitet mit komprimierten Versionen von Bildern, die innerhalb des neuronalen Netzwerks in einem sogenannten latenten Raum codiert sind, in dem nur die wesentlichen Merkmale eines Bildes erhalten bleiben.

Das bedeutet, dass Stable Diffusion weniger Rechenleistung benötigt, um zu funktionieren. Im Gegensatz zu DALL-E 2, das auf den leistungsstarken Servern von OpenAI läuft, kann Stable Diffusion auf (guten) PCs ausgeführt werden. Ein Großteil der Explosion der Kreativität und der schnellen Entwicklung neuer Apps ist darauf zurückzuführen, dass Stable Diffusion sowohl Open Source ist – Programmierer können es ändern, darauf aufbauen und Geld damit verdienen – als auch leicht genug, um von Menschen ausgeführt zu werden Zuhause.

Kreativität neu definieren

Für einige sind diese Modelle ein Schritt in Richtung künstliche allgemeine Intelligenz oder AGI – ein überbewertetes Schlagwort, das sich auf eine zukünftige KI bezieht, die universelle oder sogar menschenähnliche Fähigkeiten hat. OpenAI hat sein Ziel, AGI zu erreichen, ausdrücklich zum Ausdruck gebracht. Aus diesem Grund ist es Altman egal, dass DALL-E 2 jetzt mit einer Reihe ähnlicher Tools konkurriert, von denen einige kostenlos sind. „Wir sind hier, um AGI herzustellen, nicht Bildgeneratoren“, sagt er. „Es wird in eine breitere Produkt-Roadmap passen. Es ist ein kleines Element dessen, was ein AGI tun wird.“

source site

Leave a Reply