Wie OpenAI versucht, ChatGPT sicherer und weniger voreingenommen zu machen

Es bringt nicht nur Journalisten zum Ausflippen (einige von ihnen sollten es wirklich besser wissen, als die Fähigkeit eines dummen Chatbots, Gefühle zu haben, zu anthropomorphisieren und hochzujubeln). „erwachte“ Voreingenommenheit.

All diese Empörung zeigt endlich Wirkung. Der abgefahrene Inhalt von Bing wird von der KI-Sprachtechnologie namens ChatGPT generiert, die vom Startup OpenAI entwickelt wurde, und am vergangenen Freitag veröffentlichte OpenAI einen Blogbeitrag, der darauf abzielte, zu klären, wie sich seine Chatbots verhalten sollten. Es veröffentlichte auch seine Richtlinien, wie ChatGPT reagieren sollte, wenn es zu Dingen über US-„Kulturkriege“ aufgefordert wird. Zu den Regeln gehört beispielsweise, sich keiner politischen Partei anzuschließen oder eine Gruppe als gut oder schlecht zu beurteilen.

Ich habe mit Sandhini Agarwal und Lama Ahmad, zwei KI-Policy-Forschern bei OpenAI, gesprochen, darüber, wie das Unternehmen ChatGPT sicherer und weniger verrückt macht. Das Unternehmen weigerte sich, sich zu seiner Beziehung zu Microsoft zu äußern, hatte aber dennoch einige interessante Einblicke. Hier ist, was sie zu sagen hatten:

So erhalten Sie bessere Antworten: In der Erforschung von KI-Sprachmodellen ist eine der größten offenen Fragen, wie man verhindern kann, dass die Modelle „halluzinieren“, ein höflicher Begriff für das Erfinden von Dingen. ChatGPT wird seit Monaten von Millionen von Menschen verwendet, aber wir haben nicht die Art von Unwahrheiten und Halluzinationen gesehen, die Bing erzeugt hat.

Das liegt daran, dass OpenAI in ChatGPT eine Technik namens Reinforcement Learning from Human Feedback verwendet hat, die die Antworten des Modells basierend auf dem Feedback von Benutzern verbessert. Die Technik funktioniert, indem die Leute aufgefordert werden, zwischen einer Reihe verschiedener Ergebnisse zu wählen, bevor sie sie nach verschiedenen Kriterien wie Sachlichkeit und Wahrhaftigkeit einstufen. Manche Experten glauben Microsoft hat diese Phase möglicherweise übersprungen oder überstürzt, um Bing zu starten, obwohl das Unternehmen diese Behauptung noch bestätigen oder dementieren muss.

Aber diese Methode ist nicht perfekt, nach Agarwal. Den Leuten wurden möglicherweise Optionen präsentiert, die alle falsch waren, und dann die Option ausgewählt, die am wenigsten falsch war, sagt sie. Um ChatGPT zuverlässiger zu machen, hat sich das Unternehmen darauf konzentriert, seinen Datensatz zu bereinigen und Beispiele zu entfernen, bei denen das Modell falsche Dinge bevorzugt.

Jailbreaking-ChatGPT: Seit der Veröffentlichung von ChatGPT haben die Leute versucht, es zu „jailbreaken“, was bedeutet, Problemumgehungen zu finden, um das Modell dazu zu bringen, seine eigenen Regeln zu brechen und rassistische oder verschwörerische Dinge zu erzeugen. Diese Arbeit ist im OpenAI-Hauptquartier nicht unbemerkt geblieben. Laut Agarwal hat OpenAI seine gesamte Datenbank durchgesehen und die Eingabeaufforderungen ausgewählt, die zu unerwünschten Inhalten geführt haben, um das Modell zu verbessern und zu verhindern, dass diese Generationen wiederholt werden.

OpenAI will zuhören: Das Unternehmen hat angekündigt, mehr Feedback von der Öffentlichkeit zu sammeln, um seine Modelle zu gestalten. OpenAI untersucht die Verwendung von Umfragen oder die Einrichtung von Bürgerversammlungen, um zu diskutieren, welche Inhalte vollständig verboten werden sollten, sagt Lama Ahmad. „Im Kontext der Kunst zum Beispiel wird Nacktheit vielleicht nicht als vulgär angesehen, aber wie denken Sie darüber im Kontext von ChatGPT im Klassenzimmer“, sagt sie.


source site

Leave a Reply