ChatGPT ist ein verschwommenes JPEG des Webs

Im Jahr 2013 bemerkten Arbeiter eines deutschen Bauunternehmens etwas Seltsames an ihrem Xerox-Fotokopierer: Als sie den Grundriss eines Hauses kopierten, unterschied sich die Kopie auf subtile, aber signifikante Weise vom Original. Im ursprünglichen Grundriss war jeder der drei Räume des Hauses von einem Rechteck begleitet, das seine Fläche angab: Die Räume waren 14,13, 21,11 bzw. 17,42 Quadratmeter groß. In der Fotokopie waren jedoch alle drei Räume mit 14,13 Quadratmetern Größe beschriftet. Das Unternehmen kontaktierte den Informatiker David Kriesel, um diesem scheinbar unvorstellbaren Ergebnis nachzugehen. Sie brauchten einen Informatiker, weil ein moderner Xerox-Fotokopierer nicht das in den sechziger Jahren populäre physikalische xerografische Verfahren verwendet. Stattdessen scannt es das Dokument digital und druckt dann die resultierende Bilddatei. Kombinieren Sie dies mit der Tatsache, dass praktisch jede digitale Bilddatei komprimiert wird, um Platz zu sparen, und eine Lösung des Rätsels beginnt sich zu bieten.

Das Komprimieren einer Datei erfordert zwei Schritte: zuerst die Codierung, bei der die Datei in ein kompakteres Format umgewandelt wird, und dann die Decodierung, wobei der Vorgang umgekehrt wird. Wenn die wiederhergestellte Datei mit dem Original identisch ist, wird der Komprimierungsprozess als verlustfrei bezeichnet: Es wurden keine Informationen verworfen. Wenn die wiederhergestellte Datei dagegen nur eine Annäherung an das Original ist, wird die Komprimierung als verlustbehaftet bezeichnet: Einige Informationen wurden verworfen und sind jetzt nicht mehr wiederherstellbar. Verlustfreie Komprimierung wird normalerweise für Textdateien und Computerprogramme verwendet, da dies Bereiche sind, in denen bereits ein einziges falsches Zeichen katastrophale Folgen haben kann. Verlustbehaftete Komprimierung wird häufig für Fotos, Audio und Video in Situationen verwendet, in denen absolute Genauigkeit nicht erforderlich ist. Meistens bemerken wir nicht, wenn ein Bild, Lied oder Film nicht perfekt wiedergegeben wird. Der Verlust an Wiedergabetreue wird nur wahrnehmbarer, wenn die Dateien sehr fest gequetscht werden. In diesen Fällen bemerken wir sogenannte Kompressionsartefakte: die Unschärfe des Kleinsten JPEG Und Mpeg Bilder oder der blecherne Klang von MP3s mit niedriger Bitrate.

Xerox-Fotokopierer verwenden ein verlustbehaftetes Komprimierungsformat, das als JBIG2, konzipiert für die Verwendung mit Schwarz-Weiß-Bildern. Um Platz zu sparen, identifiziert der Kopierer ähnlich aussehende Bereiche im Bild und speichert eine einzige Kopie für alle; Wenn die Datei dekomprimiert wird, verwendet sie diese Kopie wiederholt, um das Bild zu rekonstruieren. Es stellte sich heraus, dass der Fotokopierer die Etiketten, die die Fläche der Räume angaben, als ähnlich genug beurteilt hatte, dass er nur einen von ihnen speichern musste – 14,13 – und diesen beim Drucken des Grundrisses für alle drei Räume wiederverwendete.

Die Tatsache, dass Xerox-Kopierer ein verlustbehaftetes Komprimierungsformat anstelle eines verlustfreien verwenden, ist an sich kein Problem. Das Problem ist, dass die Fotokopierer das Bild auf subtile Weise verschlechterten, wodurch die Komprimierungsartefakte nicht sofort erkennbar waren. Wenn der Fotokopierer nur verschwommene Ausdrucke produzieren würde, würde jeder wissen, dass es sich nicht um originalgetreue Reproduktionen handelt. Was zu Problemen führte, war die Tatsache, dass der Fotokopierer lesbare, aber falsche Zahlen produzierte; es ließ die Kopien akkurat erscheinen, obwohl sie es nicht waren. (Im Jahr 2014 veröffentlichte Xerox einen Patch zur Behebung dieses Problems.)

Ich denke, dass dieser Vorfall mit dem Xerox-Fotokopierer heute im Auge behalten werden sollte, wenn wir uns mit ChatGPT von OpenAI und anderen ähnlichen Programmen befassen, die KI-Forscher als Large-Language-Modelle bezeichnen. Die Ähnlichkeit zwischen einem Fotokopierer und einem großen Sprachmodell ist vielleicht nicht sofort offensichtlich – aber betrachten Sie das folgende Szenario. Stellen Sie sich vor, Sie verlieren Ihren Internetzugang für immer. Als Vorbereitung planen Sie, eine komprimierte Kopie des gesamten Textes im Web zu erstellen, damit Sie ihn auf einem privaten Server speichern können. Leider hat Ihr privater Server nur ein Prozent des benötigten Platzes; Sie können keinen verlustfreien Komprimierungsalgorithmus verwenden, wenn Sie möchten, dass alles passt. Stattdessen schreiben Sie einen verlustbehafteten Algorithmus, der statistische Regelmäßigkeiten im Text identifiziert und in einem speziellen Dateiformat speichert. Da Ihnen für diese Aufgabe praktisch unbegrenzte Rechenleistung zur Verfügung steht, kann Ihr Algorithmus außerordentlich nuancierte statistische Regelmäßigkeiten erkennen, wodurch Sie das gewünschte Komprimierungsverhältnis von hundert zu eins erreichen können.

Jetzt ist es nicht mehr ganz so schlimm, Ihren Internetzugang zu verlieren; Sie haben alle Informationen über das Web auf Ihrem Server gespeichert. Der einzige Haken ist, dass Sie aufgrund der starken Komprimierung des Textes nicht nach Informationen suchen können, indem Sie nach einem genauen Zitat suchen. Sie werden nie eine genaue Übereinstimmung erhalten, da die Wörter nicht das sind, was gespeichert wird. Um dieses Problem zu lösen, erstellen Sie eine Schnittstelle, die Abfragen in Form von Fragen akzeptiert und mit Antworten antwortet, die den Kern dessen vermitteln, was Sie auf Ihrem Server haben.

Was ich beschrieben habe, klingt sehr nach ChatGPT oder den meisten anderen großen Sprachmodellen. Stellen Sie sich ChatGPT als verschwommen vor JPEG aller Texte im Web. Es behält einen Großteil der Informationen im Web, auf die gleiche Weise wie a JPEG behält einen Großteil der Informationen eines Bildes mit höherer Auflösung bei, aber wenn Sie nach einer exakten Bitfolge suchen, werden Sie sie nicht finden; Alles, was Sie jemals bekommen werden, ist eine Annäherung. Da die Annäherung jedoch in Form von grammatikalischem Text dargestellt wird, den ChatGPT hervorragend erstellt, ist sie normalerweise akzeptabel. Du siehst immer noch verschwommen aus JPEGaber die Unschärfe tritt auf eine Weise auf, die das Bild insgesamt nicht weniger scharf erscheinen lässt.

Diese Analogie zur verlustbehafteten Komprimierung ist nicht nur ein Weg, um die Fähigkeit von ChatGPT zu verstehen, im Web gefundene Informationen neu zu verpacken, indem andere Wörter verwendet werden. Es ist auch eine Möglichkeit, die „Halluzinationen“ oder unsinnigen Antworten auf sachliche Fragen zu verstehen, für die große Sprachmodelle wie ChatGPT allzu anfällig sind. Diese Halluzinationen sind Kompressionsartefakte, aber – wie die vom Xerox-Fotokopierer erzeugten falschen Etiketten – so plausibel, dass ihre Identifizierung einen Vergleich mit den Originalen erfordert, was in diesem Fall entweder das Web oder unser eigenes Wissen über die Welt bedeutet. Wenn wir so darüber nachdenken, sind solche Halluzinationen alles andere als überraschend; Wenn ein Komprimierungsalgorithmus darauf ausgelegt ist, Text zu rekonstruieren, nachdem neunundneunzig Prozent des Originals verworfen wurden, sollten wir damit rechnen, dass erhebliche Teile dessen, was er erzeugt, vollständig fabriziert werden.

Diese Analogie macht noch mehr Sinn, wenn wir uns daran erinnern, dass eine gängige Technik, die von verlustbehafteten Komprimierungsalgorithmen verwendet wird, die Interpolation ist – das heißt, das Schätzen, was fehlt, indem man sich ansieht, was sich auf beiden Seiten der Lücke befindet. Wenn ein Bildprogramm ein Foto anzeigt und einen Pixel rekonstruieren muss, der während des Komprimierungsprozesses verloren gegangen ist, betrachtet es die nahegelegenen Pixel und berechnet den Durchschnitt. Dies ist, was ChatGPT tut, wenn es aufgefordert wird, beispielsweise den Verlust einer Socke im Trockner im Stil der Unabhängigkeitserklärung zu beschreiben: Es nimmt zwei Punkte im „lexikalischen Raum“ und generiert den Text, der die Stelle zwischen ihnen einnehmen würde. („Im Laufe menschlicher Ereignisse wird es für einen notwendig, seine Kleidung von der ihrer Partner zu trennen, um deren Sauberkeit und Ordnung aufrechtzuerhalten. . . .“) ChatGPT ist so gut in dieser Form der Interpolation, dass die Leute finden Es ist unterhaltsam: Sie haben ein „Weichzeichner“-Tool für Absätze statt Fotos entdeckt und haben eine Menge Spaß damit.

Angesichts der Tatsache, dass große Sprachmodelle wie ChatGPT oft als Spitzenreiter der künstlichen Intelligenz gepriesen werden, mag es abweisend – oder zumindest abwertend – klingen, sie als verlustbehaftete Textkomprimierungsalgorithmen zu bezeichnen. Ich denke, dass diese Perspektive ein nützliches Korrektiv für die Tendenz bietet, große Sprachmodelle zu anthropomorphisieren, aber es gibt noch einen weiteren Aspekt der Komprimierungsanalogie, der es wert ist, betrachtet zu werden. Seit 2006 bietet ein KI-Forscher namens Marcus Hutter jedem, der einen bestimmten Ein-Gigabyte-Schnappschuss von Wikipedia kleiner als der vorherige Preisträger verlustfrei komprimieren kann, eine Geldprämie – bekannt als der Preis für die Komprimierung menschlichen Wissens oder Hutter-Preis – an tat. Wahrscheinlich sind Sie schon auf Dateien gestoßen, die im ZIP-Dateiformat komprimiert wurden. Das Zip-Format reduziert Hutters Ein-Gigabyte-Datei auf etwa dreihundert Megabyte; der jüngste Preisträger hat es geschafft, es auf 115 Megabyte zu reduzieren. Dies ist nicht nur eine Übung im Glätten. Hutter glaubt, dass eine bessere Textkomprimierung maßgeblich zur Schaffung künstlicher Intelligenz auf menschlicher Ebene beitragen wird, teilweise weil der höchste Grad an Komprimierung durch das Verstehen des Textes erreicht werden kann.

Um die vorgeschlagene Beziehung zwischen Komprimierung und Verständnis zu verstehen, stellen Sie sich vor, Sie haben eine Textdatei, die eine Million Beispiele für Addition, Subtraktion, Multiplikation und Division enthält. Obwohl jeder Komprimierungsalgorithmus die Größe dieser Datei reduzieren könnte, würde der Weg zum Erzielen des größten Komprimierungsverhältnisses wahrscheinlich darin bestehen, die Prinzipien der Arithmetik abzuleiten und dann den Code für ein Taschenrechnerprogramm zu schreiben. Mit einem Taschenrechner könnten Sie nicht nur die Millionen Beispiele in der Datei perfekt rekonstruieren, sondern jedes andere Beispiel für Arithmetik, das Ihnen in Zukunft begegnen könnte. Die gleiche Logik gilt für das Problem der Komprimierung eines Teils von Wikipedia. Wenn ein Komprimierungsprogramm weiß, dass Kraft gleich Masse mal Beschleunigung ist, kann es beim Komprimieren der Seiten über Physik viele Worte verwerfen, weil es sie rekonstruieren kann. Ebenso gilt: Je mehr das Programm über Angebot und Nachfrage weiß, desto mehr Wörter kann es beim Komprimieren der Seiten über Wirtschaftswissenschaften usw. auslassen.

Large-Language-Modelle identifizieren statistische Regelmäßigkeiten im Text. Jede Analyse des Textes im Web wird zeigen, dass Sätze wie „Angebot ist niedrig“ oft in unmittelbarer Nähe von Sätzen wie „Preise steigen“ erscheinen. Ein Chatbot, der diese Korrelation berücksichtigt, könnte auf die Frage nach den Auswirkungen von Lieferengpässen mit einer Antwort auf steigende Preise antworten. Wenn ein Large-Language-Modell eine Unmenge von Korrelationen zwischen Wirtschaftsbegriffen zusammengetragen hat – so viele, dass es plausible Antworten auf eine Vielzahl von Fragen geben kann – sollten wir dann sagen, dass es tatsächlich Wirtschaftstheorie versteht? Modelle wie ChatGPT kommen aus verschiedenen Gründen nicht für den Hutter-Preis in Frage, einer davon ist, dass sie den Originaltext nicht genau rekonstruieren, also keine verlustfreie Komprimierung durchführen. Aber ist es möglich, dass ihre verlustbehaftete Komprimierung dennoch auf ein echtes Verständnis der Art hinweist, an der KI-Forscher interessiert sind?

Gehen wir zurück zum Beispiel der Arithmetik. Wenn Sie GPT-3 (das Modell für große Sprachen, aus dem ChatGPT entwickelt wurde) bitten, ein Zahlenpaar zu addieren oder zu subtrahieren, antwortet es fast immer mit der richtigen Antwort, wenn die Zahlen nur zwei Ziffern haben. Allerdings verschlechtert sich die Genauigkeit bei größeren Zahlen deutlich und sinkt bei fünfstelligen Zahlen auf zehn Prozent. Die meisten der richtigen Antworten, die GPT-3 gibt, sind nicht im Internet zu finden – es gibt beispielsweise nicht viele Webseiten, die den Text „245 + 821“ enthalten –, also ist es kein einfaches Auswendiglernen. Aber obwohl es eine riesige Menge an Informationen aufgenommen hat, war es auch nicht in der Lage, die Prinzipien der Arithmetik abzuleiten. Eine genaue Untersuchung der falschen Antworten von GPT-3 legt nahe, dass es bei der Durchführung von Arithmetik nicht die „1“ trägt. Das Web enthält sicherlich Erklärungen zum Tragen der „1“, aber GPT-3 ist nicht in der Lage, diese Erklärungen aufzunehmen. Die statistische Analyse von Arithmetikbeispielen durch GPT-3 ermöglicht es, eine oberflächliche Annäherung an die Realität zu erstellen, aber nicht mehr.

Angesichts des Versagens von GPT-3 in einem Fach, das in der Grundschule unterrichtet wird, wie können wir die Tatsache erklären, dass es manchmal beim Schreiben von Aufsätzen auf College-Niveau gut abschneidet? Obwohl große Sprachmodelle oft halluzinieren, klingen sie, wenn sie klar sind, so, als würden sie tatsächlich Themen wie Wirtschaftstheorie verstehen. Vielleicht ist Arithmetik ein Sonderfall, für den große Sprachmodelle schlecht geeignet sind. Ist es möglich, dass in Bereichen außerhalb von Addition und Subtraktion statistische Regelmäßigkeiten im Text tatsächlich vorkommen Tun echtem Wissen der wirklichen Welt entsprechen?

source site

Leave a Reply