Der Beginn der künstlichen Vorstellungskraft

Seit Jahren kreist die Angst vor dem disruptiven Potenzial von Automatisierung und künstlicher Intelligenz um repetitive Arbeit: Vielleicht könnten Maschinen den Menschen ersetzen, der Sekretariatsarbeit, Buchhaltung, Burger-Umdrehen erledigt. Ärzte, Softwareingenieure, Autoren – jeder Job, der kreative Intelligenz erfordert – schien sicher zu sein. Aber die letzten Monate haben diese Erzählungen auf den Kopf gestellt. Eine Welle von Programmen für künstliche Intelligenz, die zusammen als „generative KI“ bezeichnet werden, hat eine bemerkenswerte Fähigkeit gezeigt, die englische Sprache zu verwenden, auf Wettbewerbsniveau zu codieren, aus einfachen Eingabeaufforderungen atemberaubende Bilder zu erstellen und vielleicht sogar bei der Entdeckung neuer Medikamente zu helfen. In einem Jahr, in dem zahlreiche Tech-Hype-Blasen geplatzt oder zusammengebrochen sind, deuten diese Anwendungen darauf hin, dass das Silicon Valley immer noch die Macht hat, die Welt auf subtile und schockierende Weise neu zu verdrahten.

Eine vernünftige Reaktion auf generative KI ist Besorgnis; Wenn nicht einmal die Vorstellungskraft vor Maschinen sicher ist, scheint der menschliche Geist obsolet zu werden. Ein anderer besteht darin, auf die vielen Vorurteile und Mängel dieser Algorithmen hinzuweisen. Aber diese neuen Modelle entfachen auch Wunder, von einer Art Science-Fiction – vielleicht werden Computer die menschliche Kreativität nicht so sehr ersetzen, sondern sie erweitern oder verändern. Unser Gehirn hat schließlich stark von Taschenrechnern, Computern und sogar Internet-Suchmaschinen profitiert.

„Der Grund, warum wir dieses Tool entwickelt haben, ist die wirkliche Demokratisierung der Bilderzeugung für eine Gruppe von Menschen, die sich selbst nicht unbedingt als Künstler einstufen würden“, Mark Chen, der leitende Forscher von DALL-E 2, einem Modell von OpenAI, das schriftliche Eingabeaufforderungen umwandelt in bildende Kunst, sagte während Der Atlantik‘s allererster Progress Summit gestern. „Mit KI macht man sich immer Sorgen über Arbeitsplatzverlust und Verdrängung, und wir wollen diese Möglichkeiten auch nicht ignorieren. Aber wir denken, dass es ein Werkzeug ist, das es Menschen ermöglicht, kreativ zu sein, und wir haben bisher gesehen, dass Künstler damit kreativer sind als normale Benutzer. Und es gibt viele Technologien wie diese – Smartphone-Kameras haben Fotografen nicht ersetzt.“

Chen wurde von begleitet Der Atlantikdem stellvertretenden Herausgeber von , Ross Andersen, für ein weitreichendes Gespräch über die Zukunft der menschlichen Kreativität und der künstlichen Intelligenz. Sie diskutierten über die Funktionsweise von DALL-E 2, den Widerstand, den OpenAI von Künstlern erhalten hat, und die Auswirkungen von Text-zu-Bild-Programmen auf die Entwicklung einer allgemeineren künstlichen Intelligenz.

Ihr Gespräch wurde aus Gründen der Klarheit bearbeitet und komprimiert.

Ross Andersen: Für mich ist dies die aufregendste neue Technologie im KI-Bereich seit der Übersetzung in natürliche Sprache. Als einige dieser Tools zum ersten Mal herauskamen, fing ich an, Bilder von Träumen zu rendern, die ich als Kind hatte. Ich konnte meinen Kindern Sachen zeigen, die vorher nur in meinem Kopf aufgetaucht waren. Da Sie diese Technologie entwickelt haben, habe ich mich gefragt, ob Sie uns etwas darüber erzählen könnten, wie sie tut, was sie tut.

Mark Chen: Es gibt einen langen Trainingsprozess. Sie können sich ein sehr kleines Kind vorstellen, dem Sie viele Karteikarten zeigen, und jede dieser Karteikarten hat ein Bild und eine Beschriftung darauf. Vielleicht, nachdem Sie Hunderte und Millionen davon gesehen haben, wann immer es das Wort gibt Panda, sieht es ein verschwommenes Tier oder etwas, das schwarz und weiß ist. Es bildet also diese Assoziationen und baut dann seine eigene Art von Sprache auf, um im Grunde Sprache und Bilder darzustellen, und ist dann in der Lage, das in Bilder zu übersetzen.

Andersen: Auf wie vielen Bildern wird DALL-E 2 trainiert?

Chen: Mehrere hundert Millionen Bilder. Und das ist eine Kombination aus Material, das wir von Partnern lizenziert haben, und Material, das öffentlich verfügbar ist.

Andersen: Und wie wurden all diese Bilder getaggt?

Chen: Viele natürliche Bilder im Internet sind mit Bildunterschriften verknüpft. Viele der Partner, mit denen wir zusammenarbeiten, liefern auch Daten mit Anmerkungen, die beschreiben, was auf dem Bild zu sehen ist.

Andersen: Sie können wirklich komplexe Eingabeaufforderungen machen, die wirklich komplexe Szenen erzeugen. Wie schafft das Ding eine ganze Szene? Woher weiß es, wie es Objekte im Gesichtsfeld verteilen soll?

Chen: Diese Systeme, wenn man sie trainiert, sogar an einzelnen Objekten – sie wissen, was ein Baum ist; er weiß, was ein Hund ist – er ist in der Lage, Dinge auf eine Weise zu kombinieren, die er im Trainingsset noch nie gesehen hat. Wenn Sie also nach einem Hund fragen, der einen Anzug hinter einem Baum oder so trägt, kann er all diese Dinge synthetisieren. Und ich denke, das ist Teil der Magie der KI, dass man sie über das hinaus verallgemeinern kann, wofür man sie trainiert hat.

Andersen: Es gibt auch eine Kunst, zum Schreiben aufzufordern. Als Schriftsteller denke ich viel darüber nach, Wortfolgen zu entwerfen, die lebendige Bilder im Kopf eines Lesers hervorrufen. Und in diesem Fall steht der Fantasie des Lesers beim Spielen mit diesem Werkzeug die gesamte digitale Bibliothek der Menschheit zur Verfügung. Wie hat sich Ihre Einstellung zur Eingabeaufforderung von DALL-E 1 zu DALL-E 2 geändert?

Chen: Selbst bis zu DALL-E 2 bestand ein Großteil der Art und Weise, wie Menschen die Bilderzeugung veranlassten, aus kurzen Beschreibungen in einem Satz. Aber die Leute fügen jetzt sehr spezifische Details hinzu, sogar die Texturen, die sie wollen. Und es stellt sich heraus, dass das Modell all diese Dinge irgendwie aufgreifen und sehr subtile Anpassungen vornehmen kann. Es geht wirklich um Personalisierung – all diese Adjektive, die Sie hinzufügen, helfen Ihnen, die Ausgabe im Grunde so zu personalisieren, wie Sie es möchten.

Andersen: Es gibt viele zeitgenössische Künstler, die sich über diese Technologie geärgert haben. Als ich herumgepfuscht habe, um meine Träume zu generieren, gibt es einen schwedischen zeitgenössischen Künstler namens Simon Stålenhag, der einen Stil hat, den ich liebe, und deshalb habe ich seinen Namen ans Ende gehängt. Und tatsächlich verwandelte es das Ganze in dieses wunderschöne Bild im Stil von Simon Stålenhag. Und ich fühlte mich deswegen schuldig, als würde ich mir fast wünschen, dass es ein Spotify-Modell mit Tantiemen wäre. Aber dann gibt es eine andere Sichtweise, die einfach zu schade ist – in der gesamten Kunstgeschichte geht es darum, den Stil der Meister nachzuahmen und bereits bestehende kreative Stile neu zu mischen. Ich weiß, ihr bekommt eine Menge Rückschläge deswegen. Was denkst du, wohin das führt?

Chen: Unser Ziel ist es nicht, steife Künstler oder so etwas zu machen. Während des gesamten Veröffentlichungsprozesses wollten wir sehr gewissenhaft sein und mit den Künstlern zusammenarbeiten, sie uns sagen lassen, was sie davon erwarten und wie wir das sicherer machen können. Wir möchten sicherstellen, dass wir weiterhin mit Künstlern zusammenarbeiten und sie Feedback geben. Es gibt viele Lösungen, die in diesem Bereich herumgewirbelt werden, wie das potenzielle Deaktivieren der Fähigkeit, in einem bestimmten Stil zu generieren. Aber es gibt auch dieses Element der Inspiration, das man bekommt, so wie Menschen durch die Nachahmung von Meistern lernen.

Andersen: Neil Postman hat einen Satz, den ich liebe, in dem er sagt, dass man den technologischen Wandel nicht als additiv oder subtraktiv betrachtet, sondern als ökologisch, als Veränderung der Systeme, in denen Menschen arbeiten. Und in diesem Fall sind diese Leute Künstler. Da Sie im Dialog mit Künstlern stehen, was sehen Sie in Bezug auf die Veränderungen? Wie sieht der kreative Raum nach diesen Tools in fünf, zehn Jahren aus?

Chen: Das Erstaunliche an DALL-E ist, dass wir festgestellt haben, dass Künstler diese Tools besser nutzen als die allgemeine Bevölkerung. Wir haben einige der besten Kunstwerke gesehen, die aus diesen Systemen hervorgegangen sind, die im Wesentlichen von Künstlern produziert wurden. Der Grund, warum wir dieses Tool entwickelt haben, ist, die Bildgenerierung für eine Gruppe von Menschen zu demokratisieren, die sich nicht unbedingt als Künstler einstufen würden. Bei KI macht man sich immer Sorgen über Arbeitsplatzverlust und Verdrängung, und wir wollen diese Möglichkeiten auch nicht ignorieren. Aber wir denken, dass es ein Werkzeug ist, das es Menschen ermöglicht, kreativ zu sein, und wir haben bisher gesehen, dass Künstler damit kreativer sind als normale Benutzer. Und es gibt viele Technologien wie diese – Smartphone-Kameras haben Fotografen nicht ersetzt.

Andersen: So transformativ DALL-E auch ist, es ist nicht die einzige Show auf der OpenAI. In den letzten Wochen haben wir gesehen, wie ChatGPT die Welt mit Text-zu-Text-Eingabeaufforderungen wirklich im Sturm erobert hat. Ich habe mich gefragt, ob Sie ein wenig darüber sagen könnten, wie die Entwicklung dieser beiden Produkte Sie dazu gebracht hat, über den Unterschied in der Text- und Bildkreativität nachzudenken? Und wie können Sie diese Tools gemeinsam nutzen?

Chen: Mit DALL-E können Sie ein großes Musterraster erhalten und ganz einfach das auswählen, das Ihnen gefällt. Bei Text haben Sie diesen Luxus nicht unbedingt, daher liegt die Messlatte für Text in gewisser Weise etwas höher. Ich sehe viel Raum für die gemeinsame Verwendung dieser Art von Modellen in der Zukunft. Vielleicht haben Sie eine Konversationsschnittstelle zum Generieren von Bildern.

Andersen: Mich interessiert, ob wir jemals zu so etwas wie einer künstlichen allgemeinen Intelligenz kommen werden, etwas, das in vielen verschiedenen Bereichen operieren kann, anstatt wirklich spezifisch für einen Bereich zu sein, wie eine schachspielende KI. Ist dies aus Ihrer Sicht ein Schritt in diese Richtung? Oder fühlt sich das für Sie wie ein Sprung nach vorne an?

Chen: Eine Sache, die OpenAI immer unterscheidet, ist, dass wir künstliche allgemeine Intelligenz aufbauen wollen. Wir kümmern uns nicht unbedingt um zu viele dieser engen Domänen. DALL-E spielt dabei vor allem deshalb eine Rolle, weil wir sehen wollten, wie unsere Models die Welt sehen. Sehen sie die Welt so, wie wir sie beschreiben würden? Wir haben diese Textschnittstelle bereitgestellt, damit wir sehen können, was sich das Modell vorstellt, und sicherstellen, dass das Modell auf die Art und Weise kalibriert ist, wie wir die Welt wahrnehmen.

source site

Leave a Reply