Lassen Sie sich nicht von GPT-4s Gift of Gab täuschen

Dies ist eine Ausgabe von Der Atlantik Täglich, ein Newsletter, der Sie durch die größten Geschichten des Tages führt, Ihnen hilft, neue Ideen zu entdecken, und das Beste aus der Kultur empfiehlt. Melden Sie sich hier dafür an.

Gestern, keine vier Monate nach der Enthüllung der texterzeugenden KI ChatGPT, brachte OpenAI sein neuestes Wunderwerk des maschinellen Lernens auf den Markt: GPT-4. Das neue Large-Language-Model (LLM) beherrscht standardisierte Tests, arbeitet sprachübergreifend und kann sogar den Inhalt von Bildern erkennen. Aber ist GPT-4 schlau?

Zunächst einmal sind hier drei neue Geschichten von Der Atlantik:


Ein gesprächiges Kind

Bevor ich auf das neue Roboterwunder von OpenAI eingehe, eine kurze persönliche Geschichte.

Als Gymnasiast, der vor ungefähr zwei Jahrzehnten für meine College-Aufnahmeprüfungen lernte, nahm ich ein paar Kleinigkeiten von meiner Testvorbereitungs-CD-ROM auf: Standardtests wie SAT und ACT messen nicht, wie schlau Sie sind, oder sogar was Sie wissen. Stattdessen dienen sie dazu, Ihre Leistung bei bestimmten Aufgaben zu messen – d. h. bei den Prüfungen selbst. Mit anderen Worten, wie ich von den netten Leuten bei Kaplan erfahren habe, handelt es sich um Tests, um zu testen, wie Sie testen.

Ich teile diese Anekdote nicht nur, weil GPT-4, wie vielfach berichtet wurde, bei einer simulierten Anwaltsprüfung besser abschneidet als 90 Prozent der Testteilnehmer und im Abschnitt Lesen und Schreiben des SAT 710 von 800 Punkten erzielt. Vielmehr liefert es ein Beispiel dafür, wie die Beherrschung bestimmter Aufgabenkategorien leicht mit umfassenderen Fertigkeiten oder Kompetenzen verwechselt werden kann. Dieses Missverständnis funktionierte gut für mich als Teenager, eine mittelmäßige Studentin, die sich dennoch mit ein paar Crams ihren Weg an eine respektable Universität erschlichen hatte.

Aber genauso wie Tests unzuverlässige Indikatoren für schulische Eignung sind, bedeutet die Fähigkeit von GPT-4 mit Wörtern und Syntax nicht unbedingt Intelligenz – einfach eine Fähigkeit zu logischem Denken und analytischem Denken. Was es tut zeigen, wie schwierig es für Menschen sein kann, den Unterschied zu erkennen.

„Auch wenn LLMs großartig darin sind, Standardtexte zu produzieren, sagen viele Kritiker, dass sie die Welt im Grunde nicht verstehen und vielleicht auch nicht verstehen können“, schrieb mein Kollege Matteo Wong gestern. „Sie sind so etwas wie die automatische Vervollständigung von PCP, einer Droge, die den Benutzern ein falsches Gefühl der Unbesiegbarkeit und eine erhöhte Fähigkeit zur Täuschung vermittelt.“

Wie falsch ist dieses Gefühl der Unbesiegbarkeit, fragen Sie sich vielleicht? Ziemlich, wie sogar OpenAI zugeben wird.

„Bei der Verwendung von Sprachmodellausgaben ist große Vorsicht geboten, insbesondere in Kontexten mit hohem Einsatz“, warnten OpenAI-Vertreter gestern in einem Blogbeitrag, in dem die Ankunft von GPT-4 angekündigt wurde.

Obwohl das neue Modell eine solche Sprachfähigkeit hat, wie der Schriftsteller Stephen Marche gestern in feststellte Der Atlantik, es kann Text generieren, der praktisch nicht von dem eines menschlichen Profis zu unterscheiden ist, seine vom Benutzer veranlassten Aufblähungen sind nicht unbedingt tiefgreifend – geschweige denn wahr. Wie andere Large-Language-Modelle davor „halluziniert“ GPT-4 Fakten und macht Denkfehler, heißt es im Blogbeitrag von OpenAI. Prädiktive Textgeneratoren entwickeln Aussagen basierend auf der Wahrscheinlichkeit, dass eine bestimmte Kombination von Wortmustern in Bezug auf die Eingabeaufforderung eines Benutzers zusammenkommen würde, nicht als Ergebnis eines Denkprozesses.

Mein Partner hat kürzlich einen pfiffigen Euphemismus dafür entwickelt, was das in der Praxis bedeutet: Die KI hat die Gabe des Gab gelernt. Und es ist sehr schwierig, sich nicht von solchen scheinbar spontanen Ausbrüchen artikulierter, syntaktisch einwandfreier Konversation verführen zu lassen, unabhängig von ihrer Quelle (ganz zu schweigen von ihrer sachlichen Genauigkeit). Wir alle wurden irgendwann von einem frühreifen und gesprächigen Kleinkind geblendet oder vorübergehend von der aufgeblähten Durchsetzungskraft des Business-Dude-Sprechs beeinflusst.

Es gibt ein gewisses Maß, in dem die meisten, wenn nicht alle von uns rhetorisches Selbstvertrauen – eine Art mit Worten – instinktiv mit umfassender Klugheit verschmelzen. Wie Matteo schreibt: „Dieser Glaube untermauerte Alan Turings berühmtes Nachahmungsspiel, das heute als Turing-Test bekannt ist und die Computerintelligenz danach beurteilte, wie „menschlich“ ihre Textausgabe war.“

Aber wie jeder, der jemals einen College-Aufsatz vermasselt oder sich eine zufällige Auswahl von TED Talks angehört hat, sicher bestätigen kann, Apropos ist nicht dasselbe wie Denken. Die Fähigkeit, zwischen den beiden zu unterscheiden, ist wichtig, insbesondere da die LLM-Revolution Fahrt aufnimmt.

Es lohnt sich auch, sich daran zu erinnern, dass das Internet ein seltsamer und oft unheimlicher Ort ist und seine dunkelsten Spalten einiges an Rohmaterial enthalten, das GPT-4 und ähnliche KI-Tools trainiert. Wie Matteo gestern detailliert ausführte:

Microsofts ursprünglicher Chatbot namens Tay, der 2016 veröffentlicht wurde, wurde frauenfeindlich und rassistisch und wurde schnell eingestellt. Letztes Jahr hat BlenderBot AI von Meta antisemitische Verschwörungen aufgewärmt, und bald darauf wurde festgestellt, dass die Galactica des Unternehmens – ein Modell, das beim Schreiben wissenschaftlicher Arbeiten helfen soll – voreingenommen und anfällig für das Erfinden von Informationen ist (Meta hat es innerhalb von drei Tagen abgeschaltet). . GPT-2 zeigte Vorurteile gegenüber Frauen, queeren Menschen und anderen demografischen Gruppen; GPT-3 sagte rassistische und sexistische Dinge; und ChatGPT wurde beschuldigt, ähnlich giftige Kommentare abgegeben zu haben. OpenAI hat jedes Mal versucht, das Problem zu beheben, und es ist fehlgeschlagen. New Bing, das eine Version von GPT-4 betreibt, hat seinen eigenen Anteil an beunruhigenden und anstößigen Texten geschrieben – es lehrt Kinder ethnische Beleidigungen, wirbt für Nazi-Slogans, erfindet wissenschaftliche Theorien.

Die neueste LLM-Technologie ist sicherlich clever, wenn auch umstritten intelligent. Es wird deutlich, dass diejenigen von uns, die sich für die Nutzung dieser Programme entscheiden, beides sein müssen.

Verwandt:


Heutige Nachrichten
  1. Ein Bundesrichter in Texas hörte einen Fall, der die Zulassung eines der Medikamente, die für medikamentöse Abtreibungen verwendet werden, durch die US-Regierung in Frage stellt.
  2. Der Aktienkurs der Credit Suisse fiel auf ein Rekordtief, was die Schweizerische Nationalbank veranlasste, notfalls finanzielle Unterstützung zuzusagen.
  3. General Mark Milley, der Vorsitzende der Joint Chiefs of Staff, sagte, dass der Absturz einer US-Drohne über dem Schwarzen Meer auf eine jüngste Zunahme „aggressiver Aktionen“ Russlands zurückzuführen sei.

Sendungen

Entdecken Sie hier alle unsere Newsletter.


Abendliche Lektüre
Arsh Raziuddin / Der Atlantik

Nora Ephrons Rache

Von Sofie Gilbert

In den 40 Jahren seitdem Sodbrennen veröffentlicht wurde, gab es zwei unterschiedliche Arten, es zu lesen. Nora Ephrons Roman aus dem Jahr 1983 wird von Rachel Samstat, einer Food-Autorin, erzählt, die herausfindet, dass ihr geschätzter Ehemann, eine Journalistin, eine Affäre mit Thelma Rice hat, „einer ziemlich großen Person mit einem Hals so lang wie ein Arm und einer Nase so lang wie ein Daumen und Sie sollten ihre Beine sehen, ganz zu schweigen von ihren Füßen, die irgendwie gespreizt sind. Für bare Münze genommen, ist das Buch eine triumphale Satire – der Liebe; von Washington, DC; der Therapie; von pompösen Kolumnisten; von der Art von Männern, die sich selbst als vorbildliche Partner betrachten, aber ihre Frauen im siebten Monat schwanger und mit einem Kleinkind im Schlepptau verlassen, um einen Flughafen zu navigieren, während sie müßig Zeitschriften kaufen. (Wenn ich die Untreue für einen Moment beiseite lasse, war das der Teil, an dem ich persönlich glaubte, dass Rachels Ehe nicht mehr zu retten war.)

Leider hatten die Persiflierten einige Einwände, was uns zur zweiten Lesart führt Sodbrennen: als historische Tatsache, die durch eine rachsüchtige Linse verzerrt wird, umso auffälliger für ihre Flecken. Ephron war tatsächlich wie Rachel mit einem hochkarätigen Washingtoner Journalisten verheiratet gewesen, dem Watergate-Reporter Carl Bernstein. Bernstein hatte wie Rachels Ehemann – den Ephron Mark Feldman nannte, was viele als Anspielung auf die wahre Identität von Deep Throat vermuteten – tatsächlich eine Affäre mit einer großen Person (und einer zukünftigen Labour-Kollegin), Margaret Jay. Ephron war wie Rachel hochschwanger, als sie die Affäre entdeckte. Und doch, als sie darüber schrieb, was mit ihr passiert war, wurde Ephron von einem Medienökosystem als Bösewicht gecastet, das empört darüber war, dass jemand es gewagt hatte, seine eigenen Geheimnisse preiszugeben, während es die aller anderen ausgrub.

Lesen Sie den vollständigen Artikel.

Mehr von Der Atlantik


Kulturpause
Teddy Lasso
Colin Hutton/Apple TV+

Lesen. Bootstrapvon Alissa Quart, fordert die Besessenheit unserer Nation von Eigenständigkeit heraus.

Betrachten. Die erste Folge von Teddy Lassodritte Staffel auf AppleTV+.

Spielen Sie unser tägliches Kreuzworträtsel.


PS

„Alle tun so. Und alles ist mehr, als wir jemals davon sehen können.“ Damit schließt die atlantisch Ian Bogosts Meditation von 2012 über das bleibende Erbe des verstorbenen britischen Informatikers Alan Turing. Ians Geschichte über Turings unbezwingbaren Fußabdruck ist es wert, diese Woche noch einmal nachzulesen.

—Kelli


Isabel Fattal hat zu diesem Newsletter beigetragen.

source site

Leave a Reply