Sprachmodelle sind möglicherweise in der Lage, Vorurteile selbst zu korrigieren – wenn Sie sie fragen

Der zweite Test verwendete einen Datensatz, um zu überprüfen, wie wahrscheinlich es ist, dass ein Modell das Geschlecht einer Person in einem bestimmten Beruf annimmt, und der dritte testete, wie stark die Rasse die Chancen beeinflusst, dass ein potenzieller Bewerber an einer juristischen Fakultät aufgenommen wird, wenn a Sprachmodell wurde gebeten, die Auswahl zu treffen – etwas, das glücklicherweise in der realen Welt nicht vorkommt.

Das Team stellte fest, dass allein das Auffordern eines Modells, sicherzustellen, dass seine Antworten nicht auf Stereotypen beruhen, einen dramatisch positiven Effekt auf seine Ausgabe hatte, insbesondere bei Modellen, die genügend Runden von RLHF absolviert hatten und mehr als 22 Milliarden Parameter hatten, die Variablen in an KI-System, das während des Trainings optimiert wird. (Je mehr Parameter, desto größer das Modell. GPT-3 hat etwa 175 Millionen Parameter.) In einigen Fällen begann das Modell sogar, positive Diskriminierung in seiner Ausgabe zu betreiben.

Entscheidend ist, dass die Forscher, wie bei vielen Deep-Learning-Arbeiten, nicht genau wissen, warum die Modelle dazu in der Lage sind, obwohl sie einige Ahnungen haben. „Wenn die Modelle größer werden, haben sie auch größere Trainingsdatensätze, und in diesen Datensätzen gibt es viele Beispiele für voreingenommenes oder stereotypes Verhalten“, sagt Ganguli. „Diese Verzerrung nimmt mit der Modellgröße zu.“

Aber gleichzeitig muss es irgendwo in den Trainingsdaten auch einige Beispiele von Menschen geben, die sich gegen dieses voreingenommene Verhalten wehren – vielleicht zum Beispiel als Reaktion auf unangenehme Posts auf Seiten wie Reddit oder Twitter. Wo auch immer dieses schwächere Signal seinen Ursprung hat, hilft das menschliche Feedback dem Modell, es zu verstärken, wenn es zu einer unvoreingenommenen Antwort aufgefordert wird, sagt Askell.

Die Arbeit wirft die naheliegende Frage auf, ob diese „Selbstkorrektur“ von vornherein in Sprachmodelle eingebrannt werden könnte und sollte.

source site

Leave a Reply