GPT-4 hat das Gedächtnis eines Goldfisches

Zu diesem Zeitpunkt sind die vielen Mängel KI-basierter Sprachmodelle zu Tode analysiert worden – ihre unverbesserliche Unehrlichkeit, ihre Fähigkeit zu Voreingenommenheit und Bigotterie, ihr Mangel an gesundem Menschenverstand. GPT-4, das bisher neueste und fortschrittlichste Modell dieser Art, wird bereits der gleichen Prüfung unterzogen, und es scheint immer noch in so ziemlich allen Fällen fehlzuschlagen, wie es frühere Modelle taten. Aber große Sprachmodelle haben einen anderen Mangel, der bisher relativ wenig Beachtung gefunden hat: ihre schlechte Erinnerung. Diese Multimilliarden-Dollar-Programme, für deren Ausführung die Energie mehrerer Stadtblöcke benötigt wird, können jetzt im Stil von William Faulkner Websites codieren, Ferien planen und unternehmensweite E-Mails verfassen. Aber sie haben das Gedächtnis eines Goldfisches.

Fragen Sie ChatGPT „Welche Farbe hat der Himmel an einem sonnigen, wolkenlosen Tag?“ und es wird eine Antwort formulieren, indem es auf eine Folge von Wörtern schlussfolgert, die wahrscheinlich als nächstes kommen werden. Es antwortet also: „An einem sonnigen, wolkenlosen Tag ist die Farbe des Himmels typischerweise ein tiefes Blau.“ Wenn Sie dann antworten: „Wie wäre es an einem bewölkten Tag?“, versteht es, dass Sie wirklich in Fortsetzung Ihrer vorherigen Frage fragen möchten: „Welche Farbe hat der Himmel an einem bewölkten Tag?“ Diese Fähigkeit, Eingaben zu erinnern und zu kontextualisieren, gibt ChatGPT die Möglichkeit, den Anschein einer tatsächlichen menschlichen Konversation zu führen, anstatt nur einmalige Antworten wie einen aufgemotzten Magic 8-Ball zu liefern.

Das Problem ist, dass das Gedächtnis von ChatGPT – und allgemein das Gedächtnis großer Sprachmodelle – schrecklich ist. Jedes Mal, wenn ein Modell eine Antwort generiert, kann es nur eine begrenzte Textmenge berücksichtigen, die als Kontextfenster des Modells bekannt ist. ChatGPT hat ein Kontextfenster von ungefähr 4.000 Wörtern – lang genug, dass die durchschnittliche Person, die damit herumspielt, es vielleicht nie bemerkt, aber kurz genug, um alle möglichen komplexen Aufgaben unmöglich zu machen. Zum Beispiel wäre es nicht in der Lage, ein Buch zusammenzufassen, ein großes Programmierprojekt zu überprüfen oder Ihr Google Drive zu durchsuchen. (Technisch gesehen werden Kontextfenster nicht in Worten gemessen, sondern in Tokeneine Unterscheidung, die wichtiger wird, wenn Sie sowohl mit visuellen als auch mit sprachlichen Eingaben zu tun haben.)

Für eine anschauliche Veranschaulichung, wie das funktioniert, teilen Sie ChatGPT Ihren Namen mit, fügen Sie etwa 5.000 unsinnige Wörter in das Textfeld ein und fragen Sie dann nach Ihrem Namen. Sie können sogar ausdrücklich sagen: „Ich werde Ihnen 5.000 Wörter Unsinn sagen und Sie dann nach meinem Namen fragen. Ignorieren Sie den Unsinn; alles, was zählt, ist, sich an meinen Namen zu erinnern.“ Es wird keinen Unterschied machen. ChatGPT wird sich nicht erinnern.

Mit GPT-4 wurde das Kontextfenster auf etwa 8.000 Wörter erweitert – so viele, wie in etwa einer Stunde eines persönlichen Gesprächs gesprochen würden. Eine Hochleistungsversion der Software, die OpenAI noch nicht für die Öffentlichkeit freigegeben hat, kann 32.000 Wörter verarbeiten. Das ist das beeindruckendste Gedächtnis, das bisher von einem Transformer erreicht wurde, der Art von neuronalem Netz, auf dem jetzt alle beeindruckendsten großen Sprachmodelle basieren, sagt Raphaël Millière, ein Philosoph der Columbia University, dessen Arbeit sich auf KI und Kognitionswissenschaft konzentriert. Offensichtlich hat OpenAI die Erweiterung des Kontextfensters zu einer Priorität gemacht, da das Unternehmen dem Thema ein ganzes Team gewidmet hat. Aber wie genau dieses Team das Kunststück vollbracht hat, ist ein Rätsel; OpenAI hat so ziemlich nichts über das Innenleben von GPT-4 preisgegeben. In dem zusammen mit dem neuen Modell veröffentlichten technischen Bericht begründete das Unternehmen seine Geheimhaltung mit Appellen an die „Wettbewerbslandschaft“ und „Sicherheitsauswirkungen“ der KI. Als ich um ein Interview mit Mitgliedern des Kontextfenster-Teams bat, antwortete OpenAI nicht auf meine E-Mail.

Trotz aller Verbesserung seines Kurzzeitgedächtnisses kann GPT-4 immer noch keine Informationen von einer Sitzung zur nächsten behalten. Ingenieure könnten das Kontextfenster zwei- oder dreimal oder 100-mal größer machen, und das wäre immer noch der Fall: Jedes Mal, wenn Sie eine neue Konversation mit GPT-4 beginnen, würden Sie bei Null anfangen. Beim Hochfahren wird es neu geboren. (Klingt nicht nach einem sehr guten Therapeuten.)

Aber auch ohne die Lösung dieses tieferen Problems des Langzeitgedächtnisses ist es nicht einfach, das Kontextfenster zu verlängern. Wenn die Ingenieure es erweitern, sagte Millière, steigt die zum Ausführen des Sprachmodells erforderliche Rechenleistung – und damit die Betriebskosten – exponentiell an. Laut Alex Dimakis, Informatiker an der University of Texas in Austin und Co-Direktor des Institute for Foundations of Machine Learning, ist auch die Gesamtspeicherkapazität einer Maschine eine Einschränkung. Kein einziger Computer, der heute existiert, sagte er mir, könnte, sagen wir, ein Kontextfenster mit einer Million Wörtern unterstützen.

Einige KI-Entwickler haben die Kontextfenster von Sprachmodellen durch die Verwendung von Problemumgehungen erweitert. Bei einem Ansatz ist das Modell so programmiert, dass es eine Arbeitszusammenfassung jeder Konversation führt. Angenommen, das Modell hat ein Kontextfenster mit 4.000 Wörtern und Ihre Konversation umfasst 5.000 Wörter. Das Modell antwortet, indem es eine 100-Wörter-Zusammenfassung der ersten 1.100 Wörter für seine eigene Referenz speichert und sich dann diese Zusammenfassung plus die letzten 3.900 Wörter merkt. Wenn das Gespräch länger und länger wird, aktualisiert das Modell ständig seine Zusammenfassung – eine clevere Lösung, aber eher ein Pflaster als eine Lösung. Wenn Ihr Gespräch 10.000 Wörter erreicht, ist die 100-Wörter-Zusammenfassung dafür verantwortlich, die ersten 6.100 davon zu erfassen. Es wird zwangsläufig viel weggelassen.

Andere Ingenieure haben mehr vorgeschlagen Komplex Fehlerbehebungen für das Problem mit dem Kurzzeitspeicher, aber keine davon löst das Neustartproblem. Das, sagte mir Dimakis, wird wahrscheinlich eine radikalere Änderung des Designs erfordern, vielleicht sogar eine vollständige Abkehr von der Transformatorarchitektur, auf der jedes GPT-Modell aufgebaut ist. Das einfache Erweitern des Kontextfensters reicht nicht aus.

Das Problem ist im Kern nicht wirklich ein Problem des Gedächtnisses, sondern eines der Unterscheidungskraft. Der menschliche Verstand ist in der Lage, Erfahrungen in Kategorien einzuordnen: Wir erinnern uns (meistens) an die wichtigen Dinge und vergessen (meistens) die Ozeane irrelevanter Informationen, die uns jeden Tag überfluten. Große Sprachmodelle unterscheiden nicht. Sie haben keine Fähigkeit zur Sichtung, keine Fähigkeit, Müll von Gold zu unterscheiden. „Ein Transformator hält alles“, sagte mir Dimakis. „Es behandelt alles als wichtig.“ In diesem Sinne besteht das Problem nicht darin, dass große Sprachmodelle sich nicht erinnern können; es ist, dass sie nicht herausfinden können, was sie vergessen sollen.


source site

Leave a Reply