Es ist leicht, Wasserzeichen aus KI-generiertem Text zu manipulieren

KI-Sprachmodelle funktionieren, indem sie das nächste wahrscheinliche Wort in einem Satz vorhersagen und auf der Grundlage dieser Vorhersagen jeweils ein Wort generieren. Wasserzeichen-Algorithmen für Text unterteilen den Wortschatz des Sprachmodells in Wörter auf einer „grünen Liste“ und einer „roten Liste“ und veranlassen dann das KI-Modell, Wörter aus der grünen Liste auszuwählen. Je mehr Wörter in einem Satz aus der grünen Liste stammen, desto wahrscheinlicher ist es, dass der Text von einem Computer generiert wurde. Menschen neigen dazu, Sätze zu schreiben, die eine eher zufällige Wortmischung enthalten.

Die Forscher manipulierten fünf verschiedene Wasserzeichen, die auf diese Weise funktionieren. Sie konnten die Wasserzeichen rückentwickeln, indem sie eine API verwendeten, um auf das KI-Modell mit dem angewendeten Wasserzeichen zuzugreifen und es mehrmals aufzurufen, sagt Staab. Die Antworten ermöglichen es dem Angreifer, das Wasserzeichen zu „stehlen“, indem er ein ungefähres Modell der Wasserzeichenregeln erstellt. Dazu analysieren sie die KI-Ausgaben und vergleichen sie mit normalem Text.

Sobald sie eine ungefähre Vorstellung davon haben, was die mit Wasserzeichen versehenen Wörter sein könnten, können die Forscher zwei Arten von Angriffen ausführen. Der erste Angriff, ein sogenannter Spoofing-Angriff, ermöglicht es böswilligen Akteuren, die Informationen, die sie durch den Diebstahl des Wasserzeichens gewonnen haben, zu nutzen, um Text zu erstellen, der als mit Wasserzeichen versehen ausgegeben werden kann. Der zweite Angriff ermöglicht es Hackern, das Wasserzeichen von KI-generiertem Text zu entfernen, sodass der Text als von Menschen geschrieben ausgegeben werden kann.

Das Team hatte eine Erfolgsquote von rund 80 % beim Fälschen von Wasserzeichen und eine Erfolgsquote von 85 % beim Entfernen des Wasserzeichens aus KI-generiertem Text.

Auch Forscher, die nicht dem Team der ETH Zürich angehören, wie Soheil Feizi, außerordentlicher Professor und Direktor des Reliable AI Lab an der University of Maryland, haben herausgefunden, dass Wasserzeichen unzuverlässig und anfällig für Spoofing-Angriffe sind.

Die Ergebnisse der ETH Zürich bestätigen, dass diese Probleme mit Wasserzeichen weiterhin bestehen und sich auf die fortschrittlichsten Arten von Chatbots und großen Sprachmodellen erstrecken, die heute verwendet werden, sagt Feizi.

Die Forschung „unterstreicht, wie wichtig es ist, beim Einsatz solcher Erkennungsmechanismen in großem Maßstab Vorsicht walten zu lassen“, sagt er.

Trotz der Ergebnisse bleiben Wasserzeichen die vielversprechendste Methode zur Erkennung von KI-generierten Inhalten, sagt Nikola Jovanović, ein Doktorand an der ETH Zürich, der an der Forschung gearbeitet hat.

Er fügt jedoch hinzu, dass weitere Forschung erforderlich sei, um Wasserzeichen für den Einsatz in großem Maßstab bereit zu machen. Bis dahin sollten wir unsere Erwartungen an die Zuverlässigkeit und Nützlichkeit dieser Tools im Auge behalten. „Wenn es besser als nichts ist, ist es immer noch nützlich“, sagt er.

Update: Diese Forschung wird auf der International Conference on Learning Representations-Konferenz vorgestellt. Die Geschichte wurde aktualisiert, um dies widerzuspiegeln.

source site

Leave a Reply