Forscher geben Aufschluss darüber, wie man die Gedanken von KI-Systemen lesen und steuern kann

Eine Organisation, die sich der sicheren Entwicklung künstlicher Intelligenz widmet, hat ein „bahnbrechendes Papier“ veröffentlicht, das den Menschen dabei helfen soll, die Technologie bei ihrer Verbreitung besser zu kontrollieren.

„Wir können KIs nicht vertrauen, wenn wir nicht wissen, was sie denken oder wie sie in ihrem Inneren funktionieren“, sagte Dan Hendrycks, Direktor des Center for AI Safety, gegenüber Fox News Digital.

Hendrycks machte diese Kommentare, nachdem das Center for AI Safety (CAIS) diese Woche ein Papier veröffentlicht hatte, das sich mit dem Innenleben von KI-Systemen befasste und nach Möglichkeiten suchte, wie Menschen KI-Technologien besser verstehen, kontrollieren und verstehen und einige der Risiken mindern können sie posieren.

Möglicherweise nutzt Meta Ihr Facebook und Instagram, um das Biest mit neuer Technologie zu füttern

Eine Illustration zur künstlichen Intelligenz vom 31. März 2023. (REUTERS/Dado Ruvic/Illustration/Archivfoto)

Laut CAIS zeigte das Papier Möglichkeiten auf, wie Menschen kontrollieren und erkennen können, wann KI-Systeme Wahrheiten oder Lügen sagen, wann sie sich moralisch oder unmoralisch verhalten, ob sie mit Emotionen wie Wut, Angst und Freude handeln und wie sie sie weniger voreingenommen machen können . Das Papier untersuchte auch Möglichkeiten zur Entwicklung von Systemen, die Jailbreaks widerstehen können, eine Praxis, bei der Benutzer Schwachstellen in KI-Systemen ausnutzen und diese möglicherweise außerhalb gewünschter Protokolle nutzen können.

WAS IST KÜNSTLICHE INTELLIGENZ (KI)?

„Unsere Forschung entwickelt Möglichkeiten, die inneren Gedanken von KIs zu lesen und es uns zu ermöglichen, zu erkennen, wenn sie lügen oder auf verschiedene Weise versagen“, sagte Hendrycks und wies darauf hin, dass aktuelle KI-Systeme „zur Täuschung fähig sind und lügen oder versuchen, Menschen auszutricksen, wenn sie gegeben werden.“ ein Grund dazu.

OpenAI auf einem Laptop, wie der Mensch es in einem dunklen Raum nutzt

Auf diesem Illustrationsfoto vom 18. Juli 2023 nutzt ein Mann die Chat-Website OpenAI ChatGPT für künstliche Intelligenz. (Jaap Arriens/NurPhoto über Getty Images)

„Wir zeigen in unserem Papier Beispiele dafür und entwickeln Tools zur Überwachung und Steuerung der internen Aktivität von KIs, um dies zu verhindern“, sagte Hendrycks.

KLICKEN SIE HIER FÜR WEITERE US-NEWS

CAIS stellt fest, dass moderne KI-Systeme für Menschen bekanntermaßen schwer zu verstehen sind, was es für Benutzer auch schwierig macht, die KI-Entscheidungsfindung zu verstehen. Diese Bedenken wurden auch vom Kongress geteilt, mit dem Mehrheitsführer im Senat, Chuck Schumer, DN.Y. Anfang dieses Jahres nannte er die Erklärbarkeit von KI „eines der wichtigsten und schwierigsten technischen Probleme in der gesamten KI“.

Chuck Schumer, demokratischer Senator von New York

Der Mehrheitsführer im Senat, Chuck Schumer, DN.Y. (AP Photo/J. Scott Applewhite, Datei)

Hendrycks schloss sich diesen Bedenken an und argumentierte, ein wichtiger Aspekt der Weiterentwicklung der KI bestehe darin, sicherzustellen, dass Menschen über die Werkzeuge zur Kontrolle der Technologie verfügen.

KLICKEN SIE HIER, UM DIE FOX NEWS-APP ZU ERHALTEN

„Wir bauen eine Art ‚interne Überwachung‘ für KI-Systeme auf, um sicherzustellen, dass sie nicht versuchen, uns auszutricksen“, sagte Hendrycks. „Täuschung in der KI ist ein echtes Problem, und unsere Forschung ist ein wichtiger Schritt hin zur Bereitstellung von Werkzeugen zur Verhinderung dieser Risiken.“

source site

The Harlem Renaissance Was Bigger Than Harlem

Kalifornierin wurde von aggressivem Schwarzbären belästigt, den sie „Big B—ard“ nannte, bevor er sie zu Hause tödlich verletzte

NFL-Legende JJ Watt reagiert auf die Verpflichtung von TY Hiltons Sohn für Wisconsin: „Freue mich, jetzt Hilton die Daumen zu drücken“

Hisbollah bombardiert Israel mit Raketen und Drohnen

Forscher geben Aufschluss darüber, wie man die Gedanken von KI-Systemen lesen und steuern kann

Leave a Reply Cancel reply