KI-Modelle können Menschen bei Tests zur Identifizierung mentaler Zustände übertreffen

Die Theorie des Geistes ist ein Kennzeichen emotionaler und sozialer Intelligenz, die es uns ermöglicht, auf die Absichten von Menschen zu schließen und uns gegenseitig zu engagieren und uns in sie hineinzuversetzen. Die meisten Kinder erwerben solche Fähigkeiten im Alter zwischen drei und fünf Jahren.

Die Forscher testeten zwei Familien großer Sprachmodelle, OpenAIs GPT-3.5 und GPT-4 und drei Versionen von Metas Llama, mit Aufgaben, die darauf abzielten, die Theorie des Geistes beim Menschen zu testen, darunter die Identifizierung falscher Überzeugungen, das Erkennen von Fauxpas und das Verstehen dessen, was ist eher angedeutet als direkt gesagt wird. Sie testeten außerdem 1.907 menschliche Teilnehmer, um die Ergebnisse zu vergleichen.

Das Team führte fünf Arten von Tests durch. Die erste, die Hinweisaufgabe, dient dazu, die Fähigkeit einer Person zu messen, durch indirekte Kommentare auf die wahren Absichten einer anderen Person zu schließen. Bei der zweiten Aufgabe, der Falschglaubensaufgabe, wird beurteilt, ob jemand daraus schließen kann, dass von jemand anderem vernünftigerweise erwartet werden kann, dass er etwas glaubt, von dem er zufällig weiß, dass es nicht der Fall ist. In einem anderen Test wurde die Fähigkeit gemessen, zu erkennen, wenn jemand einen Fauxpas begeht, während ein vierter Test darin bestand, seltsame Geschichten zu erzählen, in denen ein Protagonist etwas Ungewöhnliches tat, um zu beurteilen, ob jemand den Kontrast zwischen dem Gesagten und dem Gesagten erklären kann gemeint. Dazu gehörte auch ein Test, ob Menschen Ironie verstehen können.

Die KI-Modelle wurden jeweils 15 Mal in separaten Chats getestet, sodass sie jede Anfrage unabhängig behandelten und ihre Antworten auf die gleiche Weise bewertet wurden wie bei Menschen. Anschließend testeten die Forscher die menschlichen Freiwilligen und verglichen die beiden Bewertungssätze.

Beide GPT-Versionen schnitten bei Aufgaben, die indirekte Anfragen, Irreführung und falsche Überzeugungen beinhalteten, auf oder manchmal über dem menschlichen Durchschnitt ab, während GPT-4 den Menschen in den Tests zu Ironie, Andeutungen und seltsamen Geschichten übertraf. Die drei Modelle von Llama 2 schnitten unter dem menschlichen Durchschnitt ab.

Allerdings übertraf Llama 2, das größte der drei getesteten Meta-Modelle, den Menschen bei der Erkennung von Fauxpas-Szenarien, während GPT durchweg falsche Antworten lieferte. Die Autoren gehen davon aus, dass dies auf die allgemeine Abneigung von GPT zurückzuführen ist, Rückschlüsse auf Meinungen zu ziehen, da die Modelle größtenteils antworteten, dass es nicht genügend Informationen gebe, um auf die eine oder andere Weise antworten zu können.

source site

Leave a Reply