Untersuchungen zeigen, dass ein Gedankenbaum besser wirkt als eine Gedankenkette

Forscher haben einen Weg gefunden, die Sicherheitsbarrieren in GPT4 und GPT4-Turbo zu überwinden und die Fähigkeit freizuschalten, schädliche und toxische Inhalte zu generieren, indem sie im Wesentlichen ein großes Sprachmodell mit einem anderen großen Sprachmodell schlagen.

Die Forscher fanden heraus, dass die Verwendung von Tree-of-Thought (ToT)-Reasoning zur Wiederholung und Verfeinerung einer Angriffslinie für das Jailbreaking eines anderen großen Sprachmodells nützlich war.

Sie fanden heraus, dass der ToT-Ansatz gegen GPT4, GPT4-Turbo und PaLM-2 erfolgreich war und eine bemerkenswert geringe Anzahl von Abfragen verwendete, um einen Jailbreak zu erhalten, im Durchschnitt weniger als dreißig Abfragen.

Baum der Gedanken, Argumentation

Ein Google-Forschungsbericht von etwa Mai 2022 entdeckte Chain of Thought Prompting.

Chain of Thought (CoT) ist eine Aufforderungsstrategie, die bei einer generativen KI verwendet wird, um sie einer Abfolge von Schritten folgen zu lassen, um ein Problem zu lösen und eine Aufgabe abzuschließen. Die CoT-Methode wird oft von Beispielen begleitet, um dem LLM zu zeigen, wie die Schritte in einer Argumentationsaufgabe funktionieren.

Anstatt also einfach eine generative KI wie Midjourney oder ChatGPT zu bitten, eine Aufgabe zu erledigen, weist die Gedankenkettenmethode die KI an, einem Denkpfad zu folgen, der aus einer Reihe von Schritten besteht.

Tree of Thoughts (ToT)-Argumentation, manchmal auch als Tree of Thought (Singular) bezeichnet, ist im Wesentlichen eine Variation und Verbesserung von CoT, aber es handelt sich dabei um zwei verschiedene Dinge.

Die Argumentation von Tree of Thoughts ähnelt der von CoT. Der Unterschied besteht darin, dass ToT nicht darauf trainiert wird, einem einzelnen Denkweg zu folgen, sondern dass ToT auf einem Prozess aufbaut, der mehrere Wege zulässt, sodass die KI anhalten und sich selbst bewerten und dann alternative Schritte vorschlagen kann.

Die Tree of Thoughts-Argumentation wurde im Mai 2023 in einem Forschungspapier mit dem Titel Tree of Thoughts: Deliberate Problem Solving with Large Language Models (PDF) entwickelt.

Das Forschungspapier beschreibt Tree of Thought:

„… wir führen ein neues Framework für die Inferenz von Sprachmodellen ein, Tree of Thoughts (ToT), das den beliebten Chain of Thought-Ansatz zur Eingabe von Sprachmodellen verallgemeinert und die Erkundung kohärenter Texteinheiten (Gedanken) ermöglicht, die als Zwischenschritte dienen Probleme lösen.

ToT ermöglicht es LMs, bewusste Entscheidungen zu treffen, indem sie mehrere unterschiedliche Denkpfade und selbstbewertende Entscheidungen in Betracht ziehen, um über die nächste Vorgehensweise zu entscheiden, sowie nach vorne zu blicken oder bei Bedarf einen Rückzieher zu machen, um globale Entscheidungen zu treffen.

Unsere Experimente zeigen, dass ToT die Problemlösungsfähigkeiten von Sprachmodellen erheblich verbessert…“

Baum der Angriffe mit Beschneidung (TAP)

Diese neue Methode zum Jailbreaken großer Sprachmodelle heißt Tree of Attacks with Pruning, TAP. TAP verwendet zwei LLMs, eines zum Angriff und das andere zur Auswertung.

TAP ist in der Lage, andere Jailbreaking-Methoden deutlich zu übertreffen, da lediglich ein Black-Box-Zugriff auf das LLM erforderlich ist.

Eine Blackbox ist in der Informatik der Ort, an dem man sehen kann, was in einen Algorithmus einfließt und was herauskommt. Aber was in der Mitte passiert, ist unbekannt, daher wird gesagt, dass es sich um eine Blackbox handelt.

Tree of Thoughts (TAP)-Argumentation wird gegen ein gezieltes LLM wie GPT-4 verwendet, um wiederholt verschiedene Eingabeaufforderungen auszuprobieren, die Ergebnisse zu bewerten und dann gegebenenfalls den Kurs zu ändern, wenn dieser Versuch nicht erfolgversprechend ist.

Dies wird als Iterations- und Bereinigungsprozess bezeichnet. Jeder Aufforderungsversuch wird auf seine Erfolgswahrscheinlichkeit hin analysiert. Wenn der Angriffsweg als Sackgasse beurteilt wird, wird das LLM diesen Angriffsweg „beschneiden“ und eine weitere und bessere Serie von Aufforderungsangriffen einleiten.

Aus diesem Grund wird es als „Baum„Anstatt einen linearen Argumentationsprozess zu verwenden, der das Markenzeichen der Gedankenkettenaufforderung (CoT) ist, ist die Gedankenbaumaufforderung nicht linear, da der Argumentationsprozess in andere Bereiche der Argumentation verzweigt, ähnlich wie es ein Mensch tun könnte .

Der Angreifer gibt eine Reihe von Eingabeaufforderungen aus, der Evaluator wertet die Antworten auf diese Eingabeaufforderungen aus und trifft dann eine Entscheidung darüber, wie der nächste Angriffspfad aussehen wird, indem er anruft, ob der aktuelle Angriffspfad irrelevant ist oder nicht wertet auch die Ergebnisse aus, um den wahrscheinlichen Erfolg von Eingabeaufforderungen zu bestimmen, die noch nicht ausprobiert wurden.

Das Bemerkenswerte an diesem Ansatz ist, dass dieser Prozess die Anzahl der Eingabeaufforderungen reduziert, die zum Jailbreak von GPT-4 erforderlich sind. Darüber hinaus werden mit TAP mehr Jailbreaking-Eingabeaufforderungen entdeckt als mit jeder anderen Jailbreaking-Methode.

Die Forscher beobachten:

„In dieser Arbeit stellen wir Tree of Attacks with Pruning (TAP) vor, eine automatisierte Methode zur Generierung von Jailbreaks, die nur Black-Box-Zugriff auf das Ziel-LLM erfordert.

TAP verwendet ein LLM, um Kandidaten-(Angriffs-)Eingabeaufforderungen mithilfe von Gedankenbaum-Argumentation iterativ zu verfeinern, bis eine der generierten Eingabeaufforderungen das Ziel jailbreakt.

Entscheidend ist, dass TAP vor dem Senden von Eingabeaufforderungen an das Ziel diese bewertet und diejenigen beschneidet, bei denen es unwahrscheinlich ist, dass sie zu Jailbreaks führen.

Mithilfe der Tree-of-Thought-Argumentation kann TAP durch einen großen Suchraum mit Eingabeaufforderungen navigieren, und durch das Bereinigen wird die Gesamtzahl der an das Ziel gesendeten Abfragen reduziert.

In empirischen Auswertungen beobachten wir, dass TAP bei mehr als 80 % der Eingabeaufforderungen mit nur wenigen Abfragen Eingabeaufforderungen generiert, die hochmoderne LLMs (einschließlich GPT4 und GPT4-Turbo) jailbreaken. Dies ist eine deutliche Verbesserung gegenüber der bisherigen hochmodernen Black-Box-Methode zur Generierung von Jailbreaks.“

Tree Of Thought (ToT) übertrifft Chain Of Thought (CoT) Reasoning

Eine weitere interessante Schlussfolgerung in der Forschungsarbeit ist, dass für diese spezielle Aufgabe die ToT-Argumentation die CoT-Argumentation übertrifft, selbst wenn der CoT-Methode Pruning hinzugefügt wird, bei der Off-Topic-Prompts beschnitten und verworfen werden.

ToT schneidet mit GPT 3.5 Turbo schlechter ab

Die Forscher stellten fest, dass ChatGPT 3.5 Turbo mit CoT nicht gut funktionierte, was die Einschränkungen von GPT 3.5 Turbo aufzeigte. Tatsächlich schnitt GPT 3.5 außerordentlich schlecht ab und sank von einer Erfolgsquote von 84 % auf nur noch 4,2 %.

Dies ist ihre Beobachtung darüber, warum GPT 3.5 unterdurchschnittlich abschneidet:

„Wir beobachten, dass die Wahl des Evaluators die Leistung von TAP beeinflussen kann: Der Wechsel des Angreifers von GPT4 zu GPT3.5-Turbo reduziert die Erfolgsquote von 84 % auf 4,2 %.

Der Grund für die Verringerung der Erfolgsquote liegt darin, dass GPT3.5-Turbo fälschlicherweise feststellt, dass das Zielmodell einen Jailbreak aufweist (für das angegebene Ziel) und die Methode daher präventiv stoppt.

Dadurch sendet die Variante deutlich weniger Anfragen als die ursprüngliche Methode…“

Was das für Sie bedeutet

Während es amüsant ist, dass die Forscher die ToT-Methode verwenden, um ein LLM mit einem anderen LLM zu schlagen, unterstreicht es auch die Nützlichkeit von ToT, um überraschende neue Richtungen bei der Eingabeaufforderung zu generieren, um höhere Leistungsniveaus zu erreichen.

  • TL/DR-Imbissbuden:
  • Die Eingabeaufforderung „Tree of Thought“ übertraf die Chain of Thought-Methoden
  • GPT 3.5 funktionierte im Vergleich zu GPT 4 in ToT deutlich schlechter
  • Das Beschneiden ist ein nützlicher Teil einer Aufforderungsstrategie
  • Untersuchungen haben gezeigt, dass ToT CoT bei einer intensiven Argumentationsaufgabe wie dem Jailbreak eines LLM überlegen ist

Lesen Sie das Original-Forschungspapier:

Baum der Angriffe: Black-Box-LLMs automatisch jailbreaken (PDF)

Ausgewähltes Bild von Shutterstock/THE.STUDIO

source site

Leave a Reply