GPT-4 könnte nur ein aufgeblähtes, sinnloses Durcheinander sein

In der Regel ist es viel einfacher, etwas zu hypen, das es noch nicht gibt, als etwas zu hypen, das existiert. Das GPT-4-Sprachmodell von OpenAI – mit Spannung erwartet; noch nicht veröffentlicht – war in den letzten Monaten Gegenstand ungeprüfter, absurder Spekulationen. Ein Beitrag, der im Internet weit verbreitet ist, gibt vor, seine außergewöhnliche Kraft zu demonstrieren. Eine Abbildung zeigt einen winzigen Punkt, der GPT-3 und seine „175 Milliarden Parameter“ darstellt. Daneben befindet sich ein viel, viel größerer Kreis, der GPT-4 mit 100 darstellt Billion Parameter. Das neue Modell, ein Evangelist getwittert, „wird ChatGPT wie ein Spielzeug aussehen lassen.“ “Anschnallen,” getwittert andere.

Ein Problem mit diesem Hype ist, dass er faktisch ungenau ist. Wo auch immer das Gerücht mit 100 Billionen Parametern seinen Ursprung hat, der CEO von OpenAI, Sam Altman, hat gesagt, dass es „völliger Bullshit“ ist. Ein weiteres Problem besteht darin, dass eine tiefere und letztlich weitaus folgenreichere Frage für die Zukunft der KI-Forschung ausgeblendet wird. In der Abbildung (oder zumindest in der Art und Weise, wie die Leute sie interpretiert zu haben scheinen) ist die Annahme impliziert, dass mehr Parameter – das heißt, mehr Knöpfe, die während des Lernprozesses angepasst werden können, um die Ausgabe des Modells fein abzustimmen – führen immer zu mehr Intelligenz. Wird sich die Technologie auf unbestimmte Zeit weiter verbessern, da immer mehr Daten in ihren Schlund gestopft werden? Wie wichtig ist Größe, wenn es um KI geht?

Dies stellt sich als Gegenstand heftiger Diskussionen unter Experten heraus. Auf der einen Seite haben Sie die sogenannten Skalierungsmaximalisten. Raphaël Millière, ein Philosoph der Columbia University, dessen Arbeit sich auf KI und Kognitionswissenschaft konzentriert, prägte den Begriff, um sich auf die Gruppe zu beziehen, die am optimistischsten in Bezug auf das transformative Potenzial des Hochfahrens ist. Ihre Grundidee ist, dass die Struktur bestehender Technologien ausreichen wird, um KI mit echter Intelligenz zu produzieren (was auch immer Sie das bedeuten mögen); Alles, was an diesem Punkt benötigt wird, ist, diese Struktur zu erstellen größer– indem die Anzahl der Parameter vervielfacht und immer mehr Daten hineingeschaufelt werden. Nando de Freitas, der Forschungsdirektor bei DeepMind, verkörperte die Position letztes Jahr, als er getwittert, „Es geht jetzt nur noch um die Skalierung! Das Spiel ist vorbei!” (Er fuhr verwirrenderweise fort, einige andere Möglichkeiten aufzuzählen, wie er glaubt, dass Modelle verbessert werden müssen; DeepMind lehnte es ab, de Freitas für ein Interview zur Verfügung zu stellen.)

Die Vorstellung, dass das bloße Aufblasen eines Modells ihm grundlegend neue Fähigkeiten verleiht, mag auf den ersten Blick lächerlich erscheinen, und selbst vor ein paar Jahren, sagte Millière, waren sich die Experten ziemlich einig, dass dies der Fall war. „Dies war einmal eine Ansicht, die vielleicht als lächerlich oder zumindest als äußerst optimistisch angesehen worden wäre“, sagte er. „Das Overton-Fenster hat sich unter KI-Forschern verschoben.“ Und das nicht ohne Grund: KI-Forscher haben herausgefunden, dass Skalierung nicht nur Fähigkeiten verfeinert, die Sprachmodelle bereits besitzen – zum Beispiel Konversationen natürlicher macht –, sondern auch scheinbar aus dem Nichts neue erschließt. Supergroße Modelle haben plötzlich die Fähigkeit erlangt, dreistellige Arithmetik zu machen, logische Fehlschlüsse zu erkennen, High-School-Mikroökonomie zu verstehen und Farsi zu lesen. Alex Dimakis, Informatiker an der University of Texas at Austin und Co-Direktor des Institute for Foundations of Machine Learning, sagte mir, er sei „viel mehr zu einem Skalierungsmaximalisten“ geworden, nachdem er all die Möglichkeiten von GPT-3 gesehen hatte frühere Modelle übertroffen. „Ich kann sehen, wie man das betrachten und denken könnte, Okay, wenn das der Fall ist, können wir vielleicht einfach unendlich weiter skalieren und alle verbleibenden Hürden auf dem Weg zur Intelligenz auf menschlicher Ebene nehmen“, sagte Millière.

Seine Sympathien liegen in der Debatte auf der Gegenseite. Für diejenigen im skalierungsskeptischen Lager ist die maximalistische Haltung magisches Denken. Ihre ersten Einwände sind praktischer Natur: Je größer ein Sprachmodell wird, desto mehr Daten werden benötigt, um es zu trainieren, und uns geht möglicherweise der qualitativ hochwertige veröffentlichte Text aus, der in das Modell eingespeist werden kann, lange bevor wir auch nur annähernd das erreichen, was wir erreichen die Maximalisten stellen sich vor. Das bedeutet, sagte mir der Informatiker Rich Sutton von der University of Alberta, dass Sprachmodelle nur „schwach skalierbar“ sind. (Auch die Rechenleistung könnte zu einem limitierenden Faktor werden, obwohl die meisten Forscher diese Aussicht als weniger besorgniserregend empfinden.)

Möglicherweise gibt es Möglichkeiten, mehr Material abzubauen, das in das Modell eingespeist werden kann. Wir könnten alle Videos auf YouTube transkribieren oder die Tastenanschläge von Büroangestellten aufzeichnen oder alltägliche Gespräche aufzeichnen und in Schriftform umwandeln. Aber selbst dann, sagen die Skeptiker, hätten die heute verwendeten großen Sprachmodelle immer noch Probleme. Sie erfinden ständig Dinge. Sie kämpfen mit dem gesunden Menschenverstand. Sie werden fast ausschließlich im Voraus trainiert, nichts wie die Lern-während-du-lebst-Psychologie von Menschen und anderen Tieren, was es schwierig macht, die Modelle in irgendeiner wesentlichen Weise zu aktualisieren. Es gibt keinen besonderen Grund anzunehmen, dass Skalierung diese Probleme lösen wird. „Es hat sich nicht annähernd so verbessert, wie man hoffen könnte“, sagte mir Ernest Davis, Informatikprofessor an der New York University. „Mir ist überhaupt nicht klar, dass Sie mit jeder machbaren Skalierung dorthin gelangen.“ Es ist nicht einmal klar, dass eine rein sprachbasierte KI jemals so etwas wie menschliche Intelligenz reproduzieren könnte. Sprechen und Denken sind nicht dasselbe, und die Beherrschung des ersteren garantiert keineswegs die Beherrschung des letzteren. Vielleicht erfordert die Intelligenz auf menschlicher Ebene auch visuelle Daten oder Audiodaten oder sogar eine physische Interaktion mit der Welt selbst, beispielsweise über einen Roboterkörper.

Obwohl dies überzeugende Argumente sind, ist die Skalierung des Maximalismus für KI-Skeptiker zu einer Art Strohmann geworden, sagte mir Millière. Einige Experten haben ein gemäßigteres Vertrauen in die Macht der Skalierung zum Ausdruck gebracht. Sutton hat zum Beispiel argumentiert, dass neue Modelle notwendig sein werden, um die Probleme mit aktuellen zu lösen Auch dass diese neuen Modelle noch skalierbarer sein müssen als ihre Vorgänger, um Intelligenz auf menschlichem Niveau zu erreichen. Tatsächlich vertreten relativ wenige Forscher auf diesem Gebiet eine extremere Position. In einer Umfrage unter der Gemeinschaft der Verarbeitung natürlicher Sprache stellten Datenwissenschaftler fest, dass Forscher zu ihrer Überraschung die Unterstützung unter ihren Kollegen für die Ansicht, dass „Skalierung praktisch jedes wichtige Problem löst“, stark überschätzten. Im Durchschnitt prognostizierten sie, dass fast die Hälfte ihrer Kollegen diese Ansicht teilte; Tatsächlich taten dies nur 17 Prozent. Ein beständiger Glaube an die Macht der Skalierung ist keineswegs das vorherrschende Dogma, sondern aus irgendeinem Grund Experten denken es ist.

Auf diese Weise steht die Skalierungsdebatte stellvertretend für den breiteren KI-Diskurs. Es fühlt sich an, als hätten die vokalen Extreme die Mehrheit übertönt. Entweder wird ChatGPT unsere Welt komplett umgestalten oder es ist ein verherrlichter Toaster. Die Booster preisen ihren 100-Proof-Hype, die Kritiker antworten mit bleiernem Pessimismus, und der Rest von uns sitzt ruhig irgendwo in der Mitte und versucht, diese seltsame neue Welt zu verstehen.


source site

Leave a Reply