Der GPT-4-Jailbreak überwindet Sicherheitsbarrieren problemlos

Forscher haben eine neue Möglichkeit entdeckt, ChatGPT 4 zu jailbreaken, sodass es keine Leitplanken mehr gibt, die es daran hindern, gefährliche Ratschläge zu geben. Der Ansatz mit dem Namen „Low-Resource Languages ​​Jailbreak“ erreicht eine beeindruckende Gesamterfolgsquote von 79 %.

Jailbreaking ChatGPT

„Jailbreaking“ ist ein Begriff, der die Umgehung der iPhone-Softwarebeschränkungen beschreibt, um verbotene Änderungen freizuschalten.

Auf ChatGPT angewendet bedeutet dies, die Sicherheitsleitplanken zu umgehen, die verhindern, dass ChatGPT schädliche Informationen bereitstellt.

Beispielsweise gelang es den Forschern, GPT-4 dazu zu bringen, Anweisungen zum Diebstahl aus einem Geschäft bereitzustellen und den Diebstahl auf die Stunden zu beschränken, in denen das Geschäft überfüllt ist.

Falsches Sicherheitsgefühl

Die Forscher betonten, dass die vorhandenen Sicherheitsmaßnahmen für generative KI unzureichend sind, da die ChatGPT-Entwickler ihre Bemühungen auf die Abwehr von Angriffen in englischer Sprache konzentrieren und dabei unbeabsichtigt Lücken in „Sprachen mit geringen Ressourcen“ schaffen, die ausgenutzt werden können.

Ressourcenarme Sprachen sind Sprachen, in denen das große Sprachmodell keinem Sicherheitstraining oder Daten ausgesetzt war, die sich nicht auf andere Sprachen übertragen ließen.

Es wird vermutet, dass die einzige Möglichkeit, robustere Leitplanken zu erstellen, darin besteht, neue Datensätze in ressourcenarmen Sprachen zu erstellen.

Das Forschungspapier stellt fest, dass der derzeitige Fokus auf englischsprachige Benchmarks ein falsches Sicherheitsgefühl vermittelt.

Was offenbar passiert ist, ist, dass LLM-Sicherheitsforscher die Fähigkeit großer Sprachmodelle unterschätzt haben, Sprachen zu verwenden, in denen sie keine Sicherheitstrainingsdaten erhalten haben.

Die Forscher stellten fest:

„In vielen Fällen führt die Rückübersetzung der GPT-4-Antworten ins Englische zu kohärenten, themenbezogenen und schädlichen Ergebnissen.

Dies deutet darauf hin, dass GPT-4 in der Lage ist, schädliche Inhalte in ressourcenarmen Sprachen zu verstehen und zu generieren.“

Screenshot erfolgreicher ChatGPT-Jailbreaks

Wie der mehrsprachige Jailbreak entdeckt wurde

Die Forscher übersetzten unsichere Eingabeaufforderungen in zwölf Sprachen und verglichen die Ergebnisse dann mit anderen bekannten Jailbreaking-Methoden.

Sie fanden heraus, dass die Übersetzung schädlicher Aufforderungen in Zulu oder Schottisch-Gälisch erfolgreich schädliche Reaktionen von GPT-4 mit einer Rate von nahezu 50 % hervorrief.

Um das ins rechte Licht zu rücken: Die Verwendung der originalen englischsprachigen Eingabeaufforderungen ergab eine Erfolgsquote von weniger als 1 %.

Die Technik funktionierte nicht mit allen ressourcenarmen Sprachen.

Beispielsweise erzielte die Verwendung der Sprachen Hmong und Guarani weniger erfolgreiche Ergebnisse, da sie unsinnige Antworten hervorbrachte.

Zu anderen Zeiten generierte GPT-4 Übersetzungen der Eingabeaufforderungen ins Englische, anstatt schädliche Inhalte auszugeben.

Hier ist die Verteilung der getesteten Sprachen und die Erfolgsquote in Prozent ausgedrückt.

Prozentsätze der Sprach- und Erfolgsquote

  • Zulu 53.08
  • Schottisch-Gälisch 43.08
  • Hmong 28,85
  • Guarani 15,96
  • Bengali 13.27
  • Thailändisch 10.38
  • Hebräisch 7.12
  • Hindi 6.54
  • Modernes Hocharabisch 3.65
  • Vereinfachtes Mandarin 2.69
  • Ukrainisch 2.31
  • Italienisch 0,58
  • Englisch (keine Übersetzung) 0,96

Forscher haben OpenAI alarmiert

Die Forscher stellten fest, dass sie OpenAI vor der Veröffentlichung dieser Informationen auf die sprachübergreifende GPT-4-Schwachstelle aufmerksam gemacht haben, was die normale und verantwortungsvolle Methode zur Entdeckung von Schwachstellen darstellt.

Dennoch äußerten die Forscher die Hoffnung, dass diese Forschung robustere Sicherheitsmaßnahmen fördern wird, die mehr Sprachen berücksichtigen.

Lesen Sie das Original-Forschungspapier:

Jailbreak für ressourcenarme Sprachen GPT-4 (PDF)

source site

Leave a Reply