Wie ChatGPT ein „Wasserzeichen“ in den generierten Text einbetten könnte


Es kann bald üblich werden, auf einen Tweet, Essay oder Nachrichtenartikel zu stoßen und sich zu fragen, ob er von einer Software für künstliche Intelligenz geschrieben wurde. Es könnten Fragen zur Urheberschaft eines bestimmten Textes, wie in akademischen Umgebungen, oder zur Richtigkeit seines Inhalts im Fall eines Artikels gestellt werden. Es könnten auch Fragen zur Authentizität auftauchen: Wenn eine irreführende Idee plötzlich in Posts im Internet auftaucht, verbreitet sie sich dann organisch oder wurden die Posts von KI generiert, um den Anschein echter Traktion zu erwecken?

In den letzten Monaten sind Tools aufgetaucht, mit denen festgestellt werden kann, ob ein Text von KI geschrieben wurde, darunter eines, das von OpenAI, dem Unternehmen hinter ChatGPT, entwickelt wurde. Dieses Tool verwendet ein KI-Modell, das darauf trainiert ist, Unterschiede zwischen generiertem und von Menschen geschriebenem Text zu erkennen. Als OpenAI das Tool testete, identifizierte es KI-Text nur in etwa der Hälfte der generierten Schreibproben, die es analysierte, korrekt. Das Unternehmen sagte damals, dass es den experimentellen Detektor herausgebracht habe, „um Feedback darüber zu erhalten, ob unvollkommene Werkzeuge wie dieses nützlich sind“.

Laut Experten wird es immer schwieriger, generierten Text zu identifizieren, da Software wie ChatGPT immer weiter voranschreitet und Texte hervorbringt, die überzeugender menschlich sind. OpenAI experimentiert jetzt mit einer Technologie, die spezielle Wörter in den von ChatGPT generierten Text einfügt, um ihn später leichter zu erkennen. Die Technik ist als Wasserzeichen bekannt.

Die Wasserzeichenmethode, die OpenAI untersucht, ähnelt der, die in einem kürzlich erschienenen Artikel von Forschern der University of Maryland beschrieben wurde, sagte Jan Leike, Leiter der Ausrichtung bei OpenAI. So funktioniert es.

Wenn jemand versucht, ein Wasserzeichen durch Bearbeiten des Textes zu entfernen, wüsste er nicht, welche Wörter geändert werden müssten. Und selbst wenn sie es schaffen würden, einige der speziellen Wörter zu ändern, würden sie den Gesamtprozentsatz höchstwahrscheinlich nur um ein paar Punkte reduzieren.

Tom Goldstein, Professor an der University of Maryland und Co-Autor des Watermarking-Papiers, sagte, ein Wasserzeichen könne sogar aus „einem sehr kurzen Textfragment“ wie einem Tweet erkannt werden. Im Gegensatz dazu erfordert das veröffentlichte Erkennungstool OpenAI mindestens 1.000 Zeichen.

Wie alle Erkennungsansätze ist das Wasserzeichen jedoch nicht perfekt, sagte Dr. Goldstein. Das aktuelle Erkennungstool von OpenAI ist darauf trainiert, Text zu identifizieren, der von 34 verschiedenen Sprachmodellen generiert wurde, während ein Wasserzeichendetektor nur Text identifizieren konnte, der von einem Modell oder Chatbot erstellt wurde, das dieselbe Liste von speziellen Wörtern wie der Detektor selbst verwendet. Das bedeutet, dass die Methode, sofern sich Unternehmen im KI-Bereich nicht auf eine standardmäßige Wasserzeichenimplementierung einigen, zu einer Zukunft führen könnte, in der fragwürdiger Text mit mehreren verschiedenen Wasserzeichenerkennungstools überprüft werden muss.

Damit Wasserzeichen in einem weit verbreiteten Produkt wie ChatGPT jedes Mal gut funktionieren, ohne die Qualität der Ausgabe zu beeinträchtigen, wäre viel Engineering erforderlich, sagte Dr. Goldstein. Dr. Leike von OpenAI sagte, das Unternehmen forsche immer noch an Wasserzeichen als Erkennungsform und fügte hinzu, dass es das aktuelle Tool ergänzen könne, da die beiden „unterschiedliche Stärken und Schwächen haben“.

Dennoch glauben viele Experten, dass ein One-Stop-Tool, das alle KI-Texte zuverlässig und mit absoluter Genauigkeit erkennen kann, unerreichbar sein könnte. Das liegt zum Teil daran, dass Tools auftauchen könnten, die dazu beitragen könnten, Beweise dafür zu entfernen, dass ein Textstück von KI generiert wurde, und generierter Text, selbst wenn er mit einem Wasserzeichen versehen ist, in Fällen, in denen er nur einen kleinen Teil eines größeren Stücks ausmacht, schwerer zu erkennen wäre des Schreibens. Experten sagen auch, dass Erkennungstools, insbesondere solche, die kein Wasserzeichen verwenden, generierten Text möglicherweise nicht erkennen, wenn eine Person ihn genug geändert hat.

„Ich denke, die Idee, dass es ein magisches Werkzeug geben wird, das entweder vom Anbieter des Modells oder von einem externen Dritten erstellt wird, wird Zweifel beseitigen – ich glaube nicht, dass wir uns den Luxus leisten werden in dieser Welt zu leben”, sagte David Cox, der Direktor des MIT-IBM Watson AI Lab.

Sam Altman, der Geschäftsführer von OpenAI, äußerte sich letzten Monat in einem Interview mit StrictlyVC ähnlich.

„Grundsätzlich denke ich, dass es unmöglich ist, es perfekt zu machen“, sagte Mr. Altman. „Die Leute werden herausfinden, wie viel Text sie ändern müssen. Es wird andere Dinge geben, die den ausgegebenen Text modifizieren.“

Ein Teil des Problems, so Dr. Cox, besteht darin, dass Erkennungstools selbst ein Rätsel darstellen, da sie es einfacher machen könnten, eine Erkennung zu vermeiden. Eine Person könnte generierten Text wiederholt bearbeiten und mit einem Erkennungstool vergleichen, bis der Text als von Menschen geschrieben identifiziert wird – und dieser Prozess könnte möglicherweise automatisiert werden. Die Erkennungstechnologie, fügte Dr. Cox hinzu, wird immer einen Schritt hinterherhinken, wenn neue Sprachmodelle auftauchen und bestehende sich weiterentwickeln.

„Das wird immer ein Element eines Wettrüstens haben“, sagte er. „Es wird immer so sein, dass neue Modelle auf den Markt kommen und die Leute Wege finden werden, um zu erkennen, dass es sich um eine Fälschung handelt.“

Einige Experten glauben, dass OpenAI und andere Unternehmen, die Chatbots entwickeln, Lösungen zur Erkennung entwickeln sollten, bevor sie KI-Produkte herausbringen, und nicht erst danach. OpenAI startete beispielsweise Ende November ChatGPT, veröffentlichte sein Erkennungstool jedoch erst etwa zwei Monate später, Ende Januar.

Zu diesem Zeitpunkt forderten Pädagogen und Forscher bereits Tools, die ihnen helfen, generierten Text zu identifizieren. Viele haben sich für ein neues Erkennungstool, GPTZero, angemeldet, das von einem Studenten der Princeton University während seiner Winterpause entwickelt und am 1. Januar veröffentlicht wurde.

„Wir haben von einer überwältigenden Anzahl von Lehrern gehört“, sagte Edward Tian, ​​der Student, der GPTZero entwickelt hat. Bis Mitte Februar hätten sich mehr als 43.000 Lehrer für die Nutzung des Tools angemeldet, sagte Herr Tian.

„Generative KI ist eine unglaubliche Technologie, aber für jede neue Innovation müssen wir die Sicherheitsvorkehrungen treffen, damit sie verantwortungsvoll übernommen wird, nicht Monate oder Jahre nach der Veröffentlichung, sondern sofort nach ihrer Veröffentlichung“, sagte Herr Tian.

source site

Leave a Reply