Sogar Chatbots müssen den SAT nehmen

Als die generative KI im letzten Herbst plötzlich begann, kompetentes Schreiben auf Highschool- und College-Niveau hervorzubringen, sahen einige Pädagogen darin eine Chance. Vielleicht war es endlich an der Zeit, den Aufsatz mit fünf Absätzen neben anderen schlechten Unterrichtspraktiken, die seit Generationen bestehen, zu beseitigen. Universitäten und Colleges beriefen Notrathäuser ein, bevor die Wintersemester begannen, um zu diskutieren, wie große Sprachmodelle ihre Arbeit zum Guten oder zum Schlechten umgestalten könnten.

Aber ebenso schnell verflüchtigten sich die meisten dieser Bemühungen in die Realität des normalen Lebens. Pädagogen und Administratoren haben so viele Probleme zu lösen, noch bevor KI ins Spiel kommt; die Aussicht, die Schreibausbildung und -beurteilung völlig neu zu gestalten, schien unmöglich. Lohnt sich, aber vielleicht später. Dann kam mit der Ankunft von GPT-4 letzte Woche eine weitere Provokation. OpenAI, das Unternehmen, das die neue Software entwickelt hat, hat ein Papier herausgebracht, in dem seine Kapazitäten angepriesen werden. Darunter: Tests machen. KIs produzieren nicht mehr nur passable Aufsätze mit fünf Absätzen. Jetzt sind sie beim SAT herausragend und „verdienen“ eine Punktzahl von 1410. Sie bekommen bei mehr als einem Dutzend verschiedener AP-Prüfungen bestandene Noten. Sie schneiden bei den Anwaltsprüfungen gut genug ab, um als Anwälte zugelassen zu werden.

Es wäre schön, wenn diese Neuigkeiten Pädagogen, Regierungen, Zertifizierungsstellen und andere Gruppen dazu anregen würden, zu überdenken, was diese Tests wirklich bedeuten – oder sie sogar ganz neu zu erfinden. Leider könnte sich, wie auch beim Auswendiglernen von Essays, der Appetit auf Veränderung, den der Schock auslöst, als kurzlebig erweisen. Die Errungenschaften von GPT-4 tragen dazu bei, das zugrunde liegende Problem aufzudecken: Amerikaner lieben standardisierte Tests so sehr, wie wir sie hassen – und wir werden sie wahrscheinlich nicht aufgeben, selbst wenn dies in unserem besten Interesse wäre.

Viele der ersten Reaktionen auf die Prüfungsleistung von GPT-4 waren vorhersehbar übertrieben: KI kann mit menschlichen Anwälten mithalten, oder sich für Stanford bewerbenoder „Bildung“ nutzlos machen. Aber warum sollte es im geringsten überraschen, dass Software, die auf den gesamten Text des Internets trainiert wurde, bei standardisierten Prüfungen gut abschneidet? KI kann durch statistische Analyse und Regression sofort einen Open-Book-Test zu jedem Thema durchführen. Dass irgendjemand von diesem Erfolg überhaupt überrascht ist, deutet darauf hin, dass die Menschen dazu neigen, verwirrt darüber zu sein, was es bedeutet, wenn sich Computer bei menschlichen Aktivitäten als effektiv erweisen.

In den späten 1990er Jahren dachte niemand, dass ein Computer jemals einen Menschen bei Go schlagen könnte, dem alten chinesischen Spiel, das mit schwarzen und weißen Steinen gespielt wird. Schach wurde von Supercomputern beherrscht, aber Go blieb – zumindest in den Herzen seiner Spieler – immun gegen Berechnungen. Sie lagen falsch. Zwei Jahrzehnte später schlug AlphaGo von DeepMind regelmäßig Go-Meister. Um diese Aufgabe zu erfüllen, ahmte AlphaGo zunächst die Bewegungen menschlicher Spieler nach, bevor es unzählige Spiele gegen sich selbst durchführte, um neue Strategien zu finden. Der Sieg wurde von einigen als Beweis dafür ausgelegt, dass Computer Menschen bei komplexen Aufgaben überholen können, die zuvor als einzigartig menschlich galten.

Eigentlich sollte die Fähigkeit von GPT-4 beim SAT als das Gegenteil angesehen werden. Standardisierte Tests fühlen sich an unmenschlich von Anfang an: Sie, ein eigenständiges Individuum, sind gezwungen, eine Leistung zu erbringen, die von einer Maschine beurteilt und dann mit der vieler anderer Individuen verglichen werden kann. Doch die Ankündigung der letzten Woche – der Punktzahl von 1410, der AP-Prüfungen und so weiter – löste ein ähnliches Unbehagen aus wie das von AlphaGo.

Vielleicht befürchten wir nicht, dass Computer uns die Menschlichkeit nehmen, sondern dass Maschinen die Eitelkeit unserer menschlichen Sorgen offenbaren. Die Erfahrung, als menschlicher Spieler über die nächste Reihe von Zügen in Go nachzudenken, kann nicht durch eine Go-Spielmaschine ersetzt oder reproduziert werden – es sei denn, der einzige Sinn von Go bestand darin, dieses Go zu beweisen gemeistert werden kann, anstatt gespielt. Solche kulturellen Werte existieren: Die Bezeichnung Schachgroßmeister und Go 9-Dan-Profis deutet auf Fachwissen hin, das über die bloße Leistung in einem Volksspiel hinausgeht. Die besten Schach- und Go-Spieler werden manchmal im Allgemeinen als klug angesehen, weil sie gut in einem Spiel sind, das eine gewisse Intelligenz erfordert. Dasselbe gilt für KIs, die diese Spiele spielen (und gewinnen).

Standardisierte Tests nehmen eine ähnliche kulturelle Rolle ein. Sie wurden konzipiert, um die allgemeine Leistung in einem Fach wie Mathematik oder Lesen zu bewerten und zu kommunizieren. Ob und wie sie das jemals geschafft haben, ist umstritten, aber die Genauigkeit und Fairness der Prüfungen wurde weniger wichtig als ihre soziale Funktion. Beim SAT 1410 zu erreichen, sagt etwas über Ihre Fähigkeiten und Aussichten aus – vielleicht schaffen Sie es nach Stanford. Eine Reihe von AP-Tests zu verfolgen und dann als Sieger hervorzugehen, deutet auf allgemeine Fähigkeiten hin, die einen beschleunigten Fortschritt im College rechtfertigen. (Dieser Sieg sorgt nicht unbedingt für diese Beschleunigung, was nur die Verführung seiner Symbolik unterstreicht.) Die Anwaltsprüfung misst – so hofft man – die fachliche Kompetenz einer Person, verspricht aber nicht, anwaltliche Wirksamkeit oder gar Kompetenz zu gewährleisten. Bei einem standardisierten Test gut abzuschneiden, weist auf das Potenzial hin, bei einer echten zukünftigen Aktivität gut abzuschneiden, aber es hat auch einen gewissen Wert an sich als Marker für den Erfolg bei der Teilnahme an Tests.

Dieser Wert wurde bereits in Frage gestellt, abgesehen von der maschinellen Intelligenz. Standardisierte Tests werden seit langem dahingehend untersucht, ob sie zur Diskriminierung von Studenten aus Minderheiten und mit niedrigem Einkommen beitragen. Die Coronavirus-Pandemie und ihre Unterbrechungen der Bildungschancen verstärkten diese Bedenken. Viele Colleges und Universitäten haben SAT und ACT für die Zulassung optional gemacht. Graduiertenschulen geben den GRE auf, und angehende Jurastudenten müssen in ein paar Jahren möglicherweise nicht mehr den LSAT ablegen.

Die angeblichen Fähigkeiten von GPT-4 bei diesen Tests zeigen, wie wenig Fortschritte bei der Entkopplung des Scheins von der Realität bei der Verfolgung der Tests erzielt wurden. Standardisierte Tests können die menschliche Leistungsfähigkeit fair oder unfair bewerten, aber in jedem Fall spielen sie eine übergroße Rolle in der Selbstauffassung der Amerikaner und ihrer Gemeinschaften. Wir sind nervös, dass Tests uns zu Computern machen könnten, aber auch, dass Computer die Einbildung offenbaren könnten, Tests überhaupt so hoch einzuschätzen.

KI-basierte Schach- und Go-Computer haben das Spiel von Menschen nicht überholt, aber sie haben die Trainingspraktiken von Menschen verändert. Große Sprachmodelle können dasselbe tun, um den SAT und andere standardisierte Prüfungen abzulegen, und sich zu einer ausgefallenen Form der Testvorbereitung entwickeln. In diesem Fall könnten sie am Ende denen helfen, die bereits gut genug abgeschnitten hätten, um noch besser abzuschneiden. Oder vielleicht werden sie zur Grundlage für eine kostengünstige Alternative, die eine solche Ausbildung in die Hände aller legt – eine Umkehrung der Prüfungsungerechtigkeit und eine Demokratisierung der Eitelkeit. Die standardisierten Tests bleiben in jedem Fall bestehen, nur müssen die Chatbots sie jetzt auch absolvieren.


source site

Leave a Reply