KI leitet eine Textpokalypse ein

Was, wenn wir am Ende nicht von Interkontinentalraketen oder dem Klimawandel erledigt werden, nicht von mikroskopisch kleinen Krankheitserregern oder einem berggroßen Meteor, sondern von … Text? Einfacher, schlichter, schnörkelloser Text, aber in Mengen, die so immens sind, dass sie fast unvorstellbar sind – ein Tsunami von Texten, der in einen sich selbst erhaltenden Katarakt von Inhalten gespült wird, der es funktional unmöglich macht, zuverlässig zu kommunizieren beliebig digitale Einstellung?

Unser Verhältnis zum geschriebenen Wort verändert sich grundlegend. Sogenannte generative künstliche Intelligenz ist durch Programme wie ChatGPT zum Mainstream geworden, die große Sprachmodelle oder LLMs verwenden, um den nächsten Buchstaben oder das nächste Wort in einer Folge statistisch vorherzusagen, was zu Sätzen und Absätzen führt, die den Inhalt aller Dokumente nachahmen, mit denen sie trainiert wurden . Sie haben so etwas wie Autocomplete in das gesamte Internet gebracht. Im Moment tippen die Leute immer noch die eigentlichen Eingabeaufforderungen für diese Programme ein, und ebenso werden die Modelle (meistens) immer noch mit menschlicher Prosa trainiert, anstatt mit ihren eigenen maschinell erstellten Werken.

Aber die Umstände könnten sich ändern – wie die Veröffentlichung einer API für ChatGPT letzte Woche zeigt, die es ermöglichen wird, die Technologie direkt in Webanwendungen wie soziale Medien und Online-Shopping zu integrieren. Es ist jetzt einfach, sich ein Setup vorzustellen, bei dem Maschinen andere Maschinen dazu veranlassen könnten, endlos Text zu veröffentlichen und das Internet mit synthetischem Text ohne menschliches Handeln oder Absicht zu überfluten: grauer Schleim, aber für das geschriebene Wort.

Genau dieses Szenario spielte sich bereits im kleinen Rahmen ab, als im vergangenen Juni eine optimierte Version von GPT-J, einem Open-Source-Modell, in das anonyme Message Board 4chan gepatcht wurde und innerhalb von 24 Stunden 15.000 weitgehend giftige Nachrichten veröffentlichte. Angenommen, jemand richtet ein System für ein Programm wie ChatGPT ein, um sich selbst wiederholt abzufragen und die Ausgabe automatisch auf Websites oder in sozialen Medien zu veröffentlichen. ein sich endlos wiederholender Strom von Inhalten, der kaum mehr tut, als allen im Weg zu stehen, der aber auch (unvermeidlich) wieder in die Trainingssets für Models aufgenommen wird, die ihre eigenen neuen Inhalte im Internet veröffentlichen. Was ist, wenn viele von Menschen – ob durch Werbegelder, politische oder ideologische Agenden oder einfach nur Unfug motiviert – sollten damit beginnen, mit Hunderten und dann Tausenden und vielleicht Millionen oder Milliarden solcher Posts, die jeden Tag das offene Internet überschwemmen und sich mit ihnen vermischen Suchergebnisse, die Verbreitung über Social-Media-Plattformen, das Infiltrieren von Wikipedia-Einträgen und vor allem das Bereitstellen von Futter für zukünftige Generationen von maschinell lernenden Systemen? Große Verlage experimentieren bereits: Die Tech-News-Site CNET hat Dutzende von Geschichten veröffentlicht, die mit Hilfe von KI geschrieben wurden, in der Hoffnung, Traffic anzuziehen, von denen mehr als die Hälfte an einer Stelle Fehler enthielten. Wir könnten uns schnell einer Textpokalypse gegenübersehen, in der maschinengeschriebene Sprache zur Norm und von Menschen geschriebene Prosa zur Ausnahme wird.

Wie die wertvollen Federstriche eines Kalligrafen könnte ein menschliches Dokument online zu einer Rarität werden, die es zu kuratieren, zu schützen und zu bewahren gilt. In der Zwischenzeit werden die algorithmischen Grundlagen der Gesellschaft auf einer immer künstlicheren textuellen Wissensbasis operieren, die ihren Ursprung in der unaufhörlichen Veränderung der Sprachmodelle hat. Betrachten Sie es als ein fortlaufendes planetarisches Spam-Ereignis, aber im Gegensatz zu Spam – für das wir mehr oder weniger wirksame Schutzmaßnahmen haben – gibt es möglicherweise keine zuverlässige Möglichkeit, die nächste Generation von maschinell erstelltem Text zu kennzeichnen und zu filtern. „Glaube nicht alles, was du liest“ kann zu „Glaube nicht irgendetwas Sie lesen“, wenn es online ist.


Dies ist ein ironisches Ergebnis für digitalen Text, der seit langem als ermächtigendes Format angesehen wird. In den 1980er Jahren priesen Hacker und Bastler die Vorzüge der Textdatei: ein ASCII-Dokument, das problemlos über die schwachen Modemverbindungen hin und her flatterte, die die Bulletin-Board-Szene mit Wählverbindungen zusammenhielten. In jüngerer Zeit haben Befürworter des sogenannten Minimal Computing Klartext als Format mit geringem CO2-Fußabdruck befürwortet, das unabhängig von Plattformbeschränkungen leicht gemeinsam genutzt werden kann.

Aber Klartext ist auch das am einfachsten zu automatisierende digitale Format. Die Menschen haben es in der einen oder anderen Form seit den 1950er Jahren getan. Heute sind die Normen der zeitgenössischen Kulturindustrie auf dem besten Weg zur Automatisierung und algorithmischen Optimierung der geschriebenen Sprache. Content-Farmen, die minderwertige Prosa produzieren, um Adware anzuziehen, verwenden diese Tools, sind aber immer noch auf Legionen von unterbeschäftigten oder arbeitslosen Kreativen angewiesen, um Zeichen zu richtigen Wörtern, Wörtern zu lesbaren Sätzen und Sätzen zu zusammenhängenden Absätzen zusammenzufügen. Sobald die Automatisierung und Skalierung dieser Arbeit möglich ist, welcher Anreiz wird es geben, sie einzudämmen?

William Safire, der Ende der 1990er Jahre als einer der Ersten den Aufstieg von „Content“ als eigenständige Internetkategorie diagnostizierte, war vielleicht auch der Erste, der darauf hinwies, dass Content keinen Bezug zu Wahrheit oder Genauigkeit haben muss, um seine Grundvoraussetzungen zu erfüllen Funktion, die einfach existieren soll; oder, wie Kate Eichhorn in einem kürzlich erschienenen Buch über Inhalte argumentiert hat, zu zirkulieren. Das liegt daran, dass es beim Appetit auf „Content“ mindestens ebenso sehr darum geht, neue Ziele für Werbeeinnahmen zu schaffen, wie es um die eigentliche Nahrung für das menschliche Publikum geht. Ganz zu schweigen von noch dunkleren Agenden, wie der Art von Informationskrieg, den wir jetzt in der globalen geopolitischen Sphäre sehen. Der KI-Forscher Gary Marcus hat demonstrierte die scheinbare Leichtigkeit mit denen Sprachmodelle in der Lage sind, eine grotesk verzerrte Erzählung vom 6. Januar 2021 zu generieren, die als Desinformation in großem Umfang bewaffnet werden könnte.

Hier gibt es noch eine andere Dimension. Text ist Inhalt, aber es ist eine besondere Art von Inhalt – Meta-Inhalt, wenn Sie so wollen. Unter der Oberfläche jeder Webseite finden Sie Text – Anweisungen in spitzen Klammern oder Code – für das Aussehen und Verhalten. Browser und Server stellen eine Verbindung her, indem sie Text austauschen. Die Programmierung erfolgt im Klartext. Bilder, Video und Audio werden alle mit Text beschrieben – getaggt –, der als Metadaten bezeichnet wird. Das Web ist viel mehr als nur Text, sondern alles im Web ist Text auf irgendeiner fundamentalen Ebene.

Lange Zeit war das grundlegende Paradigma das, was wir das „Read-Write-Web“ nennen. Wir haben Inhalte nicht nur konsumiert, sondern konnten sie auch produzieren, indem wir durch Bearbeitungen, Kommentare und Uploads an der Schaffung des Webs teilnahmen. Wir stehen jetzt an der Schwelle zu so etwas wie einem „Write-Write-Web“: dem Web, das sich selbst schreibt und umschreibt, und vielleicht sogar Neuverkabelung selbst dabei. (ChatGPT und seine Verwandten können schließlich genauso einfach Code schreiben wie Prosa.)

Wir stehen im Wesentlichen vor einer Krise von endlosem Spam, einer schwächenden Verschmelzung von menschlicher und maschineller Urheberschaft. Aus dem Buch von Finn Brunton aus dem Jahr 2013, Spam: Eine Schattengeschichte des Internets, lernen wir bestehende Methoden zur Verbreitung von unechten Inhalten im Internet kennen, wie z. B. „bifacing“-Websites mit Seiten, die für menschliche Leser konzipiert sind, und andere, die für die Bot-Crawler optimiert sind, die Suchmaschinen bevölkern; E-Mail-Nachrichten, die als Pastiche berühmter literarischer Werke verfasst sind, die aus Online-Corpora wie Project Gutenberg geerntet wurden, um sich besser an Filtern vorbeizuschleichen („litspam“); ganze Netzwerke von Blogs, die mit autonomen Inhalten gefüllt sind, um Links und Verkehr zu fördern („Splogs“); und „algorithmischer Journalismus“, bei dem automatisierte Berichterstattung (über Themen wie Sportergebnisse, Börsenticker und seismische Erschütterungen) über die Leitungen gesendet wird. Brunton erläutert auch die Ursprünge der Botnets, die während des Wahlzyklus 2016 in den USA und dem Brexit in Großbritannien zur Schande wurden

All diese Phänomene, ganz zu schweigen von dem Viagra-Spam der Gartensorte, der früher ein solches Ärgernis war, sind Funktionen von Text – mehr Text, als wir uns vorstellen oder in Betracht ziehen können, nur die kleinsten Splitter davon, die jemals von menschlichen Augäpfeln erblickt wurden, aber die dennoch Server, Telekommunikationskabel und Rechenzentren verstopft: „120 Milliarden Nachrichten pro Tag, die in einer grauen Textflut um die Welt strömen und durch die Filter sickern, so langweilig wie Smog“, wie Brunton es ausdrückt.

Wir haben oft über das Internet als eine große Blüte des menschlichen Ausdrucks und der Kreativität gesprochen. Nichts weniger als ein „World Wide Web“ voller Konnektivität. Aber es gibt ein sehr starkes Argument dafür, dass es wahrscheinlich bereits Mitte der 1990er Jahre, als die Unternehmensinteressen begannen, Fuß zu fassen, bereits auf dem Weg war, etwas ganz anderes zu werden. Nicht nur im üblichen Sinne kommerzialisiert – die eigentliche Struktur des Netzwerks wurde in einen Motor für das Prägen von Kapital umgewandelt. Spam in all seiner bunten und bedrohlichen Vielfalt lehrt uns, dass sich das Web schon seit einiger Zeit selbst schreibt. Jetzt könnten endlich alle notwendigen Logiken – kommerzielle, technologische und andere – für eine beschleunigte Textpokalypse vorhanden sein.


„Es entstand ein Notfall, in dem jemand 300 Wörter schreiben musste [allegedly] lustiges Zeug für eine Ausgabe von @outsidemagazine, die wir schließen. Ich habe es während der ersten Hälfte des Super Bowls *während* ich ein Bier trank, auf die Chiclet-Tasten meines Laptops geschlagen”, sagte Alex Heard. AußenRedaktionsleiterin, getwittert Im vergangenen Monat. “Sicherlich ist dies meine schönste Stunde.”

Der Tweet ist selbstironischer Humor mit einem Hauch demütiger Prahlerei, völlig unauffällig und harmlos, wie Twitter geht. Aber als ich in meinem Feed auftauchte, als ich genau diesen Artikel schrieb, ließ es mich innehalten. Schreiben ist oft unglamourös. Es ist Arbeit; Es ist ein Job, der erledigt werden muss, manchmal sogar während des großen Spiels. Heards Tweet spiegelt die Realität wider, in der derzeit sehr viel geschrieben wird, insbesondere geschriebene Inhalte für das Internet: aufgabenorientiert, nach Spezifikation fertiggestellt, unter Fristen und äußerem Druck.

In dieser enormen Mittelklasse des alltäglichen Schreibens – Inhalt – beginnt sich die generative KI bereits zu etablieren. Der erste Indikator ist die Integration in Textverarbeitungssoftware. ChatGPT wird in Office getestet; vielleicht steht es auch bald in Ihrem Arztbrief oder Ihrem Anwaltsbrief. Es ist möglicherweise auch ein stiller Partner in etwas, das Sie heute bereits online gelesen haben. Unglaublicherweise hat eine große Forschungsuniversität zugegeben, ChatGPT verwendet zu haben, um eine campusweite E-Mail-Nachricht als Reaktion auf die Massenerschießung im Bundesstaat Michigan zu schreiben. In der Zwischenzeit veröffentlichte der Herausgeber eines langjährigen Science-Fiction-Journals Daten, die einen dramatischen Anstieg der Spam-Einreichungen zeigen, der Ende letzten Jahres begann und mit der Einführung von ChatGPT zusammenfiel. (Tage später wurde er dazu gezwungen schließen Einreichungen aufgrund der Flut automatisierter Inhalte insgesamt.) Und Amazon hat einen Zustrom von Titeln gesehen, die ChatGPT als „Co-Autorschaft“ auf seiner Kindle Direct-Plattform beanspruchen, wo die Größenvorteile bedeuten, dass selbst eine Handvoll Verkäufe Geld verdienen.

Unabhängig davon, ob es zu einer vollautomatischen Textpokalypse kommt oder nicht, die Trends beschleunigen sich nur. Von einer Genreliteratur bis hin zu Ihrem Arztbericht können Sie möglicherweise nicht immer eine menschliche Urheberschaft hinter dem vermuten, was Sie gerade lesen. Das Schreiben, insbesondere aber der digitale Text – als eine Kategorie des menschlichen Ausdrucks – wird sich uns entfremden.

Das Fenster „Eigenschaften“ für das Dokument, an dem ich arbeite, listet insgesamt 941 Minuten Bearbeitung und etwa 60 Überarbeitungen auf. Das sind mehr als 15 Stunden. Ganze Absätze wurden gelöscht, eingefügt und wieder gelöscht – all das, bevor es überhaupt zu einem Lektorat oder einem Faktenprüfer kam.

Mache ich mir Sorgen, dass ChatGPT diese Arbeit hätte besser machen können? Nein. Aber ich Bin befürchtet, dass es egal sein könnte. Als Trainingsdaten für die nächste Generation der generativen KI aufgesogen, werden meine Worte hier nicht anders können: Auch sie werden fossiler Brennstoff für die kommende Textpokalypse sein.

Spam: Eine Schattengeschichte des Internets

Von Finn Brunton


Wenn Sie über einen Link auf dieser Seite ein Buch kaufen, erhalten wir eine Provision. Danke für die Unterstützung Der Atlantik.


source site

Leave a Reply