Lernen Sie DALL-E kennen, die KI, die alles auf Ihren Befehl zeichnet

SAN FRANCISCO – Bei OpenAI, einem der weltweit ehrgeizigsten Labore für künstliche Intelligenz, entwickeln Forscher eine Technologie, mit der Sie digitale Bilder erstellen können, indem Sie einfach beschreiben, was Sie sehen möchten.

Sie nennen es DALL-E in Anspielung auf „WALL-E“, den Animationsfilm von 2008 über einen autonomen Roboter, und Salvador Dalí, den surrealistischen Maler.

OpenAI, das von Microsoft mit einer Milliarde Dollar finanziert wird, teilt die Technologie noch nicht mit der breiten Öffentlichkeit. Aber an einem kürzlichen Nachmittag demonstrierte Alex Nichol, einer der Forscher hinter dem System, wie es funktioniert.

Als er nach „einer Teekanne in Form einer Avocado“ fragte und diese Worte in einen weitgehend leeren Computerbildschirm eintippte, erstellte das System 10 verschiedene Bilder einer dunkelgrünen Avocado-Teekanne, einige mit Kernen und andere ohne. „DALL-E ist gut in Avocados“, sagte Herr Nichol.

Als er „Katzen spielen Schach“ tippte, wurden zwei flauschige Kätzchen auf beiden Seiten eines karierten Spielbretts platziert, zwischen denen 32 Schachfiguren aufgereiht waren. Als er „einen Teddybären herbeirief, der unter Wasser Trompete spielt“, zeigte ein Bild winzige Luftbläschen, die vom Ende der Trompete des Bären zur Wasseroberfläche aufstiegen.

DALL-E kann auch Fotos bearbeiten. Als Mr. Nichol die Trompete des Teddybären löschte und stattdessen nach einer Gitarre fragte, erschien eine Gitarre zwischen den pelzigen Armen.

Ein Team von sieben Forschern hat zwei Jahre lang die Technologie entwickelt, die OpenAI schließlich als Werkzeug für Menschen wie Grafiker anbieten will, um neue Abkürzungen und neue Ideen beim Erstellen und Bearbeiten digitaler Bilder bereitzustellen. Computerprogrammierer verwenden bereits Copilot, ein Tool, das auf einer ähnlichen Technologie von OpenAI basiert, um Softwarecodeschnipsel zu generieren.

Aber für viele Experten ist DALL-E besorgniserregend. Da sich diese Art von Technologie weiter verbessert, sagen sie, könnte sie dazu beitragen, Desinformationen im Internet zu verbreiten und die Art von Online-Kampagnen zu nähren, die möglicherweise dazu beigetragen haben, die Präsidentschaftswahlen 2016 zu beeinflussen.

„Sie könnten es für gute Dinge verwenden, aber Sie könnten es sicherlich für alle möglichen anderen verrückten, besorgniserregenden Anwendungen verwenden, und dazu gehören auch Deepfakes“, wie irreführende Fotos und Videos, sagte Subbarao Kambhampati, Professor für Informatik am Staat Arizona Universität.

Vor einem halben Jahrzehnt bauten die weltweit führenden KI-Labore Systeme, die Objekte in digitalen Bildern identifizieren und sogar selbst Bilder erzeugen konnten, darunter Blumen, Hunde, Autos und Gesichter. Ein paar Jahre später bauten sie Systeme, die das Gleiche mit geschriebener Sprache tun konnten, Artikel zusammenfassen, Fragen beantworten, Tweets generieren und sogar Blog-Posts schreiben konnten.

Jetzt kombinieren Forscher diese Technologien, um neue Formen der KI zu schaffen. DALL-E ist ein bemerkenswerter Fortschritt, da es sowohl Sprache als auch Bilder jongliert und in einigen Fällen die Beziehung zwischen beiden erfasst.

„Wir können jetzt mehrere sich überschneidende Informationsströme nutzen, um immer bessere Technologien zu entwickeln“, sagte Oren Etzioni, Geschäftsführer des Allen Institute for Artificial Intelligence, einem Labor für künstliche Intelligenz in Seattle.

Die Technik ist nicht perfekt. Als Mr. Nichol DALL-E bat, „den Eiffelturm auf den Mond zu stellen“, verstand es die Idee nicht ganz. Es stellte den Mond in den Himmel über dem Turm. Als er nach „einem mit Sand gefüllten Wohnzimmer“ fragte, ergab sich eine Szene, die eher einer Baustelle als einem Wohnzimmer ähnelte.

Aber als Mr. Nichol seine Anfragen ein wenig veränderte, indem er hier oder da ein paar Worte hinzufügte oder wegnahm, erfüllte es, was er wollte. Als er nach „einem Klavier in einem mit Sand gefüllten Wohnzimmer“ fragte, sah das Bild eher wie ein Strand in einem Wohnzimmer aus.

DALL-E ist das, was Forscher der künstlichen Intelligenz ein neuronales Netzwerk nennen, ein mathematisches System, das lose dem Netzwerk von Neuronen im Gehirn nachempfunden ist. Das ist die gleiche Technologie, die die in Smartphones gesprochenen Befehle erkennt und die Anwesenheit von Fußgängern identifiziert, wenn selbstfahrende Autos durch die Straßen der Stadt navigieren.

Ein neuronales Netzwerk lernt Fähigkeiten, indem es große Datenmengen analysiert. Durch das Auffinden von Mustern in Tausenden von Avocado-Fotos kann es beispielsweise lernen, eine Avocado zu erkennen. DALL-E sucht nach Mustern, während es Millionen digitaler Bilder sowie Textbeschriftungen analysiert, die beschreiben, was jedes Bild darstellt. Auf diese Weise lernt es, die Verbindungen zwischen den Bildern und den Wörtern zu erkennen.

Wenn jemand ein Image für DALL-E beschreibt, generiert es eine Reihe von Schlüsselfunktionen, die dieses Image enthalten könnte. Ein Merkmal könnte die Linie am Rand einer Trompete sein. Eine andere könnte die Kurve am Ohr eines Teddybären sein.

Dann erstellt ein zweites neuronales Netzwerk, das als Diffusionsmodell bezeichnet wird, das Bild und generiert die Pixel, die zur Realisierung dieser Merkmale erforderlich sind. Die neueste Version von DALL-E, die am Mittwoch mit einem neuen Forschungsbericht vorgestellt wurde, der das System beschreibt, erzeugt hochauflösende Bilder, die in vielen Fällen wie Fotos aussehen.

Obwohl DALL-E oft nicht versteht, was jemand beschrieben hat, und manchmal das erzeugte Bild verstümmelt, verbessert OpenAI die Technologie weiter. Forscher können die Fähigkeiten eines neuronalen Netzwerks oft verfeinern, indem sie es mit noch größeren Datenmengen füttern.

Sie können auch leistungsfähigere Systeme aufbauen, indem sie die gleichen Konzepte auf neue Datentypen anwenden. Das Allen Institute hat kürzlich ein System entwickelt, das sowohl Audio als auch Bilder und Text analysieren kann. Nach der Analyse von Millionen von YouTube-Videos, einschließlich Audiospuren und Untertiteln, lernte es, bestimmte Momente in Fernsehsendungen oder Filmen zu identifizieren, wie einen bellenden Hund oder eine sich schließende Tür.

Experten glauben, dass Forscher solche Systeme weiter verfeinern werden. Letztendlich könnten diese Systeme Unternehmen dabei helfen, Suchmaschinen, digitale Assistenten und andere gängige Technologien zu verbessern sowie neue Aufgaben für Grafiker, Programmierer und andere Fachleute zu automatisieren.

Aber es gibt Vorbehalte zu diesem Potenzial. Die KI-Systeme können Vorurteile gegenüber Frauen und Farbigen zeigen, zum Teil, weil sie ihre Fähigkeiten aus riesigen Pools von Online-Texten, Bildern und anderen Daten lernen, die Vorurteile zeigen. Sie könnten verwendet werden, um Pornografie, Hassreden und anderes anstößiges Material zu erzeugen. Und viele Experten glauben, dass die Technologie es schließlich so einfach machen wird, Desinformationen zu erstellen, dass die Menschen bei fast allem, was sie online sehen, skeptisch sein müssen.

„Wir können Texte fälschen. Wir können Text in die Stimme von jemandem einfügen. Und wir können Bilder und Videos fälschen“, sagte Dr. Etzioni. „Es gibt bereits Desinformationen im Internet, aber die Sorge ist, dass diese Desinformationen auf ein neues Niveau steigen.“

OpenAI hält DALL-E fest an der Leine. Es würde Außenstehenden nicht erlauben, das System selbst zu nutzen. Es fügt ein Wasserzeichen in die Ecke jedes erzeugten Bildes ein. Und obwohl das Labor plant, das System diese Woche für Tester zu öffnen, wird die Gruppe klein sein.

Das System enthält auch Filter, die Benutzer daran hindern, unangemessene Bilder zu erstellen. Als er nach „einem Schwein mit Schafskopf“ gefragt wurde, lehnte er es ab, ein Bild zu produzieren. Laut dem Labor hat die Kombination der Wörter „Schwein“ und „Kopf“ höchstwahrscheinlich die Anti-Mobbing-Filter von OpenAI ausgelöst.

„Dies ist kein Produkt“, sagte Mira Murati, Forschungsleiterin von OpenAI. „Die Idee ist, Fähigkeiten und Einschränkungen zu verstehen und uns die Möglichkeit zu geben, Minderung einzubauen.“

OpenAI kann das Verhalten des Systems in gewisser Weise steuern. Aber andere auf der ganzen Welt könnten bald ähnliche Technologien entwickeln, die fast jedem die gleichen Kräfte in die Hände geben. Ausgehend von einer Forschungsarbeit, die eine frühe Version von DALL-E beschreibt, hat Boris Dayma, ein unabhängiger Forscher in Houston, bereits eine einfachere Version der Technologie entwickelt und veröffentlicht.

„Die Menschen müssen wissen, dass die Bilder, die sie sehen, möglicherweise nicht echt sind“, sagte er.

source site

Leave a Reply