Ein Freund, der nur durch die Bewegungen geht. Ein Ehepartner, der in den Trott der Gewohnheit geraten ist. Die Botschaft eines erschöpften Reisenden mit Jetlag. Ein unterdrückter Kuss, unerwünscht oder schlecht getimt. Dies waren einige der Interpretationen, die in meinem Kopf nachhallten, nachdem ich a gesehen hatte seltsame Kleinigkeit der digitalen Kunst vom Emoji Mashup Bot, einem beliebten, aber nicht mehr existierenden Twitter-Account, der die Teile zweier Emojis zu neuen, überraschenden und erstaunlich resonanten Kompositionen kombinierte. Der Bot hatte die Hand und die Augen des ? gähnenden Emojis genommen und sie mit dem Mund des ? Kussherz-Emojis zusammengequetscht. Das ist es.
Vergleichen Sie diese einfache Methode mit angeblich ausgefeilteren, auf maschinellem Lernen basierenden generativen Tools, die im letzten Jahr oder so populär geworden sind. Als ich Midjourney, einen KI-basierten Kunstgenerator, bat, ein neues Emoji basierend auf diesen beiden zu erstellen, produzierte es Kompositionen, die sicherlich emojiförmig waren, aber nichts von dem Stil oder der Bedeutung des einfachen Mashup besaßen: eine Reihe von gelben, herzförmigen geformte Körper mit herausstehenden Zungen. Einer schien eine andere Zunge zu essen. Alle kamen mir vor wie die Art von Monstrositäten, die als Preise für Karnevalsspiele angeboten werden könnten oder als Aufkleber, die mit Junk-Mail für Kinderkrebs-Spendenaktionen geliefert werden.
ChatGPT, der beliebte Bot zur Textgenerierung, erging es nicht viel besser. Ich bat es, Beschreibungen neuer Emojis basierend auf Teilen bestehender Emojis zu generieren. Seine Ideen waren gut, aber banal: ein „gähnendes Sonne“-Emoji mit gelbem Gesicht und offenem Mund, um einen verschlafenen oder faulen Tag darzustellen; ein „Multitasking“-Emoji mit Augen, die in verschiedene Richtungen blicken, um das gleichzeitige Jonglieren mehrerer Aufgaben darzustellen. Ich gab diese Beschreibungen wieder in Midjourney ein und erhielt kompetente, aber langweilige Ergebnisse: eine Reihe kreischender Sonnen, eine Reihe von Augen auf einem gelben Gesicht, von dem ein schwarzer, teerartiger Schlamm tropfte.
Vielleicht hätte ich bessere Eingabeaufforderungen entwerfen oder mehr Zeit damit verbringen können, meine Ergebnisse in ChatGPT und Midjourney zu verfeinern. Aber diese beiden Programme sind der Höhepunkt der KI-gesteuerten generativen Kreativitätsforschung, und wenn es darum ging, ausdrucksstarke, neuartige Emojis zu machen, wurden sie von einem kinderleichten Computerprogramm übertroffen, das Gesichtsteile von einem Hut nimmt und sie zusammencollagiert.
Die Menschen träumen von KI-Kreativität. Sie träumen von Computern, die träumen, für den Anfang: dass Software, sobald sie Terabytes an Text- und Bilddaten füttert, so etwas wie eine maschinelle Vorstellungskraft entfalten kann Autor funktioniert, anstatt sie nur auszugeben. Aber dieser Traum beinhaltet eine Einbildung: die KI-Generatoren wie ChatGPT, DALL-E und Midjourney erreichen können beliebig Art der Kreativität mit gleicher Leichtigkeit und Leistung. Ihre Schöpfer und Befürworter stufen sie als fähig ein, jede Form menschlicher Intelligenz anzugehen – als alles Generatoren.
Und das nicht ohne Grund: Diese Tools können von fast allem eine Version erzeugen. Viele dieser Versionen sind falsch oder irreführend oder sogar potentiell gefährlich. Viele sind auch uninteressant, wie die Emoji-Beispiele zeigen. Es stellt sich heraus, dass die Verwendung eines Softwaretools, das eine bestimmte Sache machen kann, etwas anders – und viel erfreulicher – ist als die Verwendung eines, das alles machen kann.
Kate Compton, eine Informatikprofessorin an der Northwestern University, die seit mehr als einem Jahrzehnt Software für generative Kunst herstellt, hält ihre Werkzeuge nicht für künstlich intelligent – oder überhaupt intelligent. „Wenn ich ein Werkzeug herstelle“, sagte mir Compton, „habe ich ein kleines Geschöpf geschaffen, das etwas herstellen kann.“ Dass etwas meist mehr aussagekräftig als nützlich ist: Ihre Bots stellen sich die inneren Gedanken eines Menschen vor verlorener autonomer Tesla und zeichne Bilder davon hypothetisches außerirdisches Raumschiff. Ähnliche Gizmos bieten Hipster-Cocktail-Rezepte oder falsche britische Städte nennen. Was auch immer ihr Ziel sein mag, Compton strebt nicht danach, dass Software-Generatoren wie diese ihre Domäne beherrschen. Stattdessen hofft sie, dass sie „die winzige, etwas dumme Version davon“ anbieten.
Das ist weit entfernt von den Ambitionen des ChatGPT-Erfinders OpenAI: künstliche allgemeine Intelligenz zu bauen, „hochautonome Systeme, die Menschen bei wirtschaftlich wertvollster Arbeit übertreffen“. Microsoft, das bereits 1 Milliarde US-Dollar in OpenAI investiert hat, befindet sich Berichten zufolge in Gesprächen, um weitere 10 Milliarden US-Dollar in das Unternehmen zu investieren. Diese Art von Geld setzt voraus, dass die Technologie einen massiven zukünftigen Gewinn erzielen kann. Was Comptons Behauptung nur noch schockierender macht. Was, wenn all das Geld einer schlechten Idee nachjagt?
Eines der erfolgreichsten Tools von Compton ist ein Generator namens Tracery, der Vorlagen und Inhaltslisten verwendet, um Text zu generieren. Im Gegensatz zu ChatGPT und seinen Cousins, die auf riesigen Datensätzen trainiert werden, verlangt Tracery von den Benutzern, dass sie eine explizite Struktur erstellen, die als „kontextfreie Grammatik“ bezeichnet wird, als Modell für ihre Ausgabe. Das Tool wurde verwendet, um Twitter-Bots in verschiedenen Formen zu erstellen, darunter thinkpiece-Schlagzeilen-Pitches und abstrakte Landschaften.
Eine kontextfreie Grammatik funktioniert ein bisschen wie eine verschachtelte Mad Lib. Sie schreiben eine Reihe von Vorlagen (sagen Sie: „Tut mir leid, ich habe es nicht bis zum [event]. ich hatte [problem].“) und Inhalt, um diese Vorlagen zu füllen (Probleme könnten „ein Niednagel“, „eine Laune“, „explosiver Durchfall“, „a [conflict] Mit meinem [relative]“), und die Grammatik fügt sie zusammen. Das erfordert, dass der Generative-Art-Autor die Struktur der Sache, die er generieren möchte, berücksichtigt, anstatt die Software um eine Ausgabe zu bitten, wie dies bei ChatGPT oder Midjourney der Fall wäre. Der Schöpfer des Emoji Mashup Bot, ein Entwickler namens Louan Bengmah, hätte jedes Quell-Emoji in eine Reihe von Teilen aufteilen müssen, bevor er ein Programm geschrieben hätte, das sie in neuen Konfigurationen wieder zusammensetzen würde. Das erfordert viel mehr Aufwand, ganz zu schweigen von einigen technischen Fähigkeiten.
Für Compton ist diese Anstrengung nichts, wovor man sich drücken muss – es ist der Sinn der Übung. „Wenn ich nur etwas machen wollte, könnte ich etwas machen“, sagte sie mir. „Wenn ich etwas machen lassen wollte, könnte ich etwas machen lassen.“ Im Gegensatz zur Mission von OpenAI sieht Compton den Zweck generativer Software anders: Die Praxis der Software-Tool-Erstellung ist vergleichbar mit der Geburt einer Software-Kreatur („eine Chibi-Version des Systems“, wie sie es mir gegenüber ausdrückte), die etwas machen kann – meistens schlecht oder seltsam oder auf jeden Fall karikierte Versionen davon – und Zeit damit zu verbringen, mit dieser Kreatur zu kommunizieren, wie man es mit einem Spielzeughund, einem kleinen Kind oder einem wohlwollenden Außerirdischen tun könnte. Das Ziel ist nicht, das beste oder genaueste Abbild einer Hipster-Cocktailkarte oder eines Bergblicks bei Tagesanbruch zu produzieren, sondern etwas Wahreres als die Realität einzufangen. Die Ideen von ChatGPT für neue Emojis sind realisierbar, aber die Angebote des Emoji Mashup Bot fühlen sich passend an; Sie könnten sie verwenden, anstatt nur über die Tatsache zu posten, dass ein Computer sie generiert hat.
„Das ist vielleicht das, was wir bei den Generate-Everything-Generatoren verloren haben“, sagte Compton: ein Verständnis dafür, was die Maschine überhaupt zu erzeugen versucht. Das System betrachten, die darin enthaltenen Möglichkeiten erkennen, seine Muster identifizieren, diese Muster in Software oder Daten kodieren und dann immer wieder zusehen, wie das Ding funktioniert. Wenn Sie etwas in ChatGPT oder DALL-E 2 eingeben, ist es, als würden Sie eine Münze in einen Wunschbrunnen werfen und den Eimer wieder hochziehen, um an seiner Stelle einen Haufen Seetang oder einen Welpen zu finden. Aber die Generatoren von Compton sind eher wie das Einwerfen einer Münze in einen Gachapon Maschine, die im Voraus die Art des Objekts kennt, das das Ding abgeben wird. Diese Bemühungen deuten auf eine Praxis hin, bei der ein Autor hofft, Benutzern zu helfen, eine Beziehung zu ihrer Software herzustellen, anstatt daraus ein Ergebnis abzuleiten. (Es erklärt auch, warum sich Twitter zu einem so fruchtbaren Host für diese Bots entwickelt hat – die Plattform fördert von Natur aus Karikatur, Kürze und Wiederholung.)
Es ist viel gewonnen, wenn gezeigt wird, wie ein Softwaregenerator funktioniert und wie sein Schöpfer die Muster verstanden hat, die sein Thema definieren. Der Emoji Mashup Bot tut dies, indem er die beiden Emoji anzeigt, aus denen er eine bestimmte Komposition erstellt hat. Einer der ersten Textgeneratoren, an die ich mich erinnere, war ein seltsames Softwarespielzeug namens Kant Generator Pro, das in den 1990er Jahren für Macs entwickelt wurde. Es verwendete kontextfreie Grammatiken, um geschwollene Texte zu verfassen, die an den deutschen Aufklärer Immanuel Kant erinnerten, obwohl es auch Modelle für weniger esoterische Kompositionen wie Dankesschreiben enthielt. Das Programm wurde mit einem Editor geliefert, der es dem Benutzer ermöglichte, Grammatiken anzuzeigen oder zu verfassen, und der eine Möglichkeit bot, unter die Haube zu schauen und die Wahrheit der Software zu verstehen.
Aber eine solche Transparenz ist in maschinell lernenden Systemen wie ChatGPT schwierig oder unmöglich. Niemand weiß wirklich, wie oder warum diese KIs ihre Ergebnisse produzieren – und die Ergebnisse können sich von Moment zu Moment auf unerklärliche Weise ändern. Wenn ich ChatGPT nach Emoji-Konzepten frage, habe ich keine Ahnung von seiner Emoji-Theorie – welche Muster oder Modelle es als wichtig oder relevant auslegt. Ich kann ChatGPT untersuchen, um seine Arbeit zu erklären, aber das Ergebnis ist nie erklärend – eher ist es nur mehr generierter Text: „Um die Ideen für Emojis zu generieren, nutzte ich mein Wissen über gängige Konzepte und Themen, die oft auch in Emojis dargestellt werden wie mein Verständnis menschlicher Emotionen, Aktivitäten und Interessen.“
Vielleicht werden die All-Generatoren mit der zunehmenden Verbreitung kreativer Kooperationen mit Softwaregeneratoren als Middleware umgestaltet, die von maßgeschneiderter Software mit spezifischeren Zielen verwendet wird. Comptons Arbeit ist charmant, strebt aber nicht wirklich nach Nützlichkeit, und es gibt sicherlich viele Möglichkeiten für die generative KI, Menschen dabei zu helfen, nützliche, sogar schöne Dinge zu machen. Trotzdem wird das Erreichen dieser Zukunft viel mehr Arbeit erfordern, als nur mit einem Computerprogramm zu chatten, das auf den ersten Blick etwas über alles zu wissen scheint. Sobald diese erste Röte verblasst, wird klar, dass ChatGPT es nicht wirklich weiß irgendetwas– Stattdessen gibt es Kompositionen aus, die Wissen durch überzeugende Struktur simulieren. Und während die Neuheit dieser Überraschung nachlässt, wird klar, dass ChatGPT weniger eine magische Wunscherfüllungsmaschine als ein interpretierender Sparringspartner ist, ein Werkzeug, das am interessantesten ist, wenn es eher schlecht als gut in seiner Arbeit ist.
Niemand will wirklich ein Werkzeug, das alles machen kann, denn ein solches Bedürfnis ist eine theoretische Täuschung, eine kapitalistische Fantasie oder beides. Die Hoffnung oder Befürchtung, dass ChatGPT oder Midjourney oder irgendein anderes KI-Tool Know-how, Handwerk und Arbeit beenden könnte, verrät eine offensichtliche Wahrheit: Diese neuen Gizmos bringen ganz neue Regime von Fachwissen, Handwerk und Arbeit mit sich. Wir haben mit Tech-Demos gespielt, nicht mit fertigen Produkten. Letztendlich werden die Rohstoffe dieser KI-Tools für Dinge verwendet, für die die Menschen leider Geld bezahlen. Einige dieser neuen Arbeiten werden dumm und beleidigend sein, da Unternehmen eine Wertschöpfung rund um die KI-Systeme verlangen, in die sie investiert haben (Microsoft erwägt Berichten zufolge, ChatGPT zu Office hinzuzufügen). Andere könnten sich als befriedigend und sogar aufschlussreich erweisen – wenn sie Schöpfer und Publikum davon überzeugen können, dass die Software etwas Bestimmtes macht und mit Absicht spricht und ihnen die Möglichkeit bietet, mit ihr in einen Dialog zu treten.
Im Moment ist dieser Dialog mehr simuliert als real. Ja, sicher, Sie können mit ChatGPT „chatten“ und mit Midjourney Bilder iterieren. Doch bei vielen dieser Begegnungen entsteht ein Gefühl der Leere, weil die Software durchdreht. Es scheint zuzuhören und zu reagieren, aber es verarbeitet lediglich Eingaben in Ausgaben. Die KI-Kreativität muss den dummen, anmaßenden Traum von künstlicher allgemeiner Intelligenz zugunsten konkreter Besonderheiten aufgeben. Eine unendlich intelligente Maschine, die alles machen kann, ist nutzlos.