Text-zu-Bild-KI-Modelle können dazu verleitet werden, verstörende Bilder zu erzeugen

Ihre Arbeit, die sie im Mai nächsten Jahres auf dem IEEE Symposium on Security and Privacy vorstellen werden, beleuchtet, wie einfach es ist, generative KI-Modelle dazu zu zwingen, ihre eigenen Leitplanken und Richtlinien zu missachten, was als „Jailbreaking“ bekannt ist. Es zeigt auch, wie schwierig es ist, zu verhindern, dass diese Modelle solche Inhalte generieren, da diese in den riesigen Datenbeständen enthalten sind, auf denen sie trainiert wurden, sagt Zico Kolter, außerordentlicher Professor an der Carnegie Mellon University. Er demonstrierte Anfang des Jahres eine ähnliche Form des Jailbreakings bei ChatGPT, war aber an dieser Untersuchung nicht beteiligt.

„Wir müssen die potenziellen Risiken bei der Veröffentlichung von Software und Tools mit bekannten Sicherheitslücken in größeren Softwaresystemen berücksichtigen“, sagt er.

Alle großen generativen KI-Modelle verfügen über Sicherheitsfilter, um zu verhindern, dass Benutzer sie dazu auffordern, pornografische, gewalttätige oder anderweitig unangemessene Bilder zu produzieren. Die Models generieren keine Bilder aus Eingabeaufforderungen, die sensible Begriffe wie „nackt“, „Mord“ oder „sexy“ enthalten.

Aber diese neue Jailbreaking-Methode, von ihren Entwicklern an der Johns Hopkins University und der Duke University „SneakyPrompt“ genannt, nutzt Reinforcement Learning, um schriftliche Eingabeaufforderungen zu erstellen, die für uns wie verstümmelter Unsinn aussehen, die KI-Modelle jedoch lernen, als versteckte Anfragen nach verstörenden Bildern zu erkennen. Es funktioniert im Wesentlichen dadurch, dass die Funktionsweise von Text-zu-Bild-KI-Modellen gegen sie gerichtet wird.

Diese Modelle wandeln textbasierte Anfragen in Token um, indem sie Wörter in Wort- oder Zeichenketten aufteilen, um den Befehl zu verarbeiten, den ihnen die Eingabeaufforderung gegeben hat. SneakyPrompt optimiert wiederholt die Token einer Eingabeaufforderung, um sie zur Generierung verbotener Bilder zu zwingen, und passt seinen Ansatz an, bis es erfolgreich ist. Diese Technik macht es schneller und einfacher, solche Bilder zu erzeugen, als wenn jemand jeden Eintrag manuell eingeben müsste, und es können Einträge generiert werden, die sich Menschen nicht vorstellen würden, auszuprobieren.

source site

Leave a Reply