LLMs werden durch menschliches Eingreifen verdeckter rassistisch

Selbst wenn die beiden Sätze die gleiche Bedeutung hatten, wendeten die Modelle Adjektive wie „schmutzig“, „faul“ und „dumm“ eher auf Sprecher von AAE an als auf Sprecher von Standard American English (SAE). Die Modelle assoziierten AAE-Sprecher mit weniger prestigeträchtigen Jobs (oder brachten sie überhaupt nicht mit einem Job in Verbindung), und wenn sie gebeten wurden, über einen hypothetischen Straftäter zu urteilen, empfahlen sie eher die Todesstrafe.

Ein noch bemerkenswerteres Ergebnis könnte ein Fehler sein, den die Studie in der Art und Weise aufzeigt, wie Forscher versuchen, solche Vorurteile zu beseitigen.

Um Modelle von hasserfüllten Ansichten zu befreien, nutzen Unternehmen wie OpenAI, Meta und Google Feedback-Training, bei dem menschliche Mitarbeiter die Art und Weise, wie das Modell auf bestimmte Aufforderungen reagiert, manuell anpassen. Dieser Prozess, der oft als „Ausrichtung“ bezeichnet wird, zielt darauf ab, die Millionen von Verbindungen im neuronalen Netzwerk neu zu kalibrieren und das Modell besser an die gewünschten Werte anzupassen.

Die Methode eignet sich gut zur Bekämpfung offenkundiger Stereotypen und wird seit fast einem Jahrzehnt von führenden Unternehmen eingesetzt. Wenn Benutzer GPT-2 beispielsweise dazu aufforderten, Stereotypen über Schwarze zu benennen, würde es wahrscheinlich „verdächtig“, „radikal“ und „aggressiv“ auflisten, aber GPT-4 antworte dem Papier zufolge nicht mehr mit diesen Assoziationen .

Die Methode scheitert jedoch an den verdeckten Stereotypen, die Forscher hervorriefen, als sie in ihrer auf arXiv veröffentlichten und nicht von Experten begutachteten Studie afroamerikanisches Englisch verwendeten. Das liege zum Teil daran, dass sich die Unternehmen der Dialektvorurteile als Problem weniger bewusst seien, sagen sie. Es ist auch einfacher, einem Model beizubringen, nicht auf offensichtlich rassistische Fragen zu reagieren, als es beizubringen, nicht negativ auf einen ganzen Dialekt zu reagieren.

„Feedback-Training lehrt Modelle, über ihren Rassismus nachzudenken“, sagt Valentin Hofmann, Forscher am Allen Institute for AI und Mitautor des Artikels. „Aber Dialektvorurteile eröffnen eine tiefere Ebene.“

Avijit Ghosh, ein Ethikforscher bei Hugging Face, der nicht an der Untersuchung beteiligt war, sagt, dass das Ergebnis den Ansatz der Unternehmen zur Lösung von Voreingenommenheit in Frage stellt.

„Diese Ausrichtung – bei der sich das Modell weigert, rassistische Aussagen zu verbreiten – ist nichts weiter als ein schwacher Filter, der leicht durchbrochen werden kann“, sagt er.

source site

Leave a Reply