Warum Big Techs Wette auf KI-Assistenten so riskant ist

OpenAI hat neue ChatGPT-Funktionen vorgestellt, darunter die Möglichkeit, mit dem Chatbot ein Gespräch zu führen, als ob Sie einen Anruf tätigen würden, sodass Sie sofort Antworten auf Ihre gesprochenen Fragen mit einer lebensechten synthetischen Stimme erhalten, wie mein Kollege Will Douglas Heaven berichtete. OpenAI gab außerdem bekannt, dass ChatGPT das Web durchsuchen kann.

Googles Konkurrenz-Bot Bard ist in den größten Teil des Ökosystems des Unternehmens eingebunden, darunter Gmail, Docs, YouTube und Maps. Die Idee ist, dass Menschen den Chatbot nutzen können, um Fragen zu ihren eigenen Inhalten zu stellen – indem sie ihn beispielsweise dazu bringen, ihre E-Mails zu durchsuchen oder ihren Kalender zu organisieren. Bard wird außerdem in der Lage sein, Informationen sofort aus der Google-Suche abzurufen. In ähnlicher Weise kündigte auch Meta an, dass es auf alles KI-Chatbots wirft. Benutzer können KI-Chatbots und prominenten KI-Avataren auf WhatsApp, Messenger und Instagram Fragen stellen, wobei das KI-Modell Informationen online aus der Bing-Suche abruft.

Angesichts der Grenzen der Technologie ist dies eine riskante Wette. Technologieunternehmen haben einige der anhaltenden Probleme mit KI-Sprachmodellen nicht gelöst, etwa ihre Neigung, Dinge zu erfinden oder zu „halluzinieren“. Was mich jedoch am meisten beunruhigt, ist, dass sie eine Sicherheits- und Datenschutzkatastrophe darstellen, wie ich Anfang des Jahres schrieb. Technologieunternehmen geben diese zutiefst fehlerhafte Technologie in die Hände von Millionen von Menschen und ermöglichen KI-Modellen den Zugriff auf vertrauliche Informationen wie ihre E-Mails, Kalender und privaten Nachrichten. Dadurch machen sie uns alle anfällig für Betrug, Phishing und Hacks in großem Umfang.

Ich habe die erheblichen Sicherheitsprobleme bei KI-Sprachmodellen bereits behandelt. Da KI-Assistenten nun Zugriff auf persönliche Informationen haben und gleichzeitig im Internet surfen können, sind sie besonders anfällig für eine Art Angriff, der als indirekte Prompt-Injection bezeichnet wird. Es ist lächerlich einfach auszuführen und es gibt keine bekannte Lösung.

Bei einem indirekten Prompt-Injection-Angriff verändert ein Dritter „eine Website, indem er versteckten Text hinzufügt, der das Verhalten der KI ändern soll“, wie ich im April schrieb. „Angreifer könnten soziale Medien oder E-Mail nutzen, um Benutzer mit diesen geheimen Eingabeaufforderungen auf Websites zu leiten. Sobald dies geschieht, könnte das KI-System so manipuliert werden, dass der Angreifer beispielsweise versuchen kann, die Kreditkarteninformationen von Personen zu extrahieren.“ Da diese neue Generation von KI-Modellen in soziale Medien und E-Mails integriert ist, sind die Möglichkeiten für Hacker endlos.

Ich habe OpenAI, Google und Meta gefragt, was sie tun, um sich gegen Prompt-Injection-Attacken und Halluzinationen zu verteidigen. Meta antwortete nicht rechtzeitig zur Veröffentlichung und OpenAI äußerte sich nicht zu der Aufzeichnung.

Bezüglich der Neigung der KI, Dinge zu erfinden, sagte ein Sprecher von Google, dass das Unternehmen Bard als „Experiment“ veröffentliche und dass es Benutzern die Möglichkeit gebe, Bards Antworten mithilfe der Google-Suche auf Fakten zu überprüfen. „Wenn Benutzer eine Halluzination oder etwas sehen, das nicht korrekt ist, ermutigen wir sie, auf die Schaltfläche „Daumen nach unten“ zu klicken und Feedback zu geben. Das ist eine Möglichkeit, wie Bard lernen und sich verbessern wird“, sagte der Sprecher. Natürlich liegt bei diesem Ansatz die Verantwortung beim Benutzer, den Fehler zu erkennen, und die Menschen neigen dazu, zu sehr auf die von einem Computer generierten Antworten zu vertrauen. Auf meine Frage zur Prompt-Injection hatte Google keine Antwort parat.

Für die sofortige Injektion bestätigte Google, dass es sich nicht um ein gelöstes Problem handelt und weiterhin ein aktives Forschungsgebiet ist. Der Sprecher sagte, das Unternehmen nutze andere Systeme wie Spamfilter, um Angriffsversuche zu identifizieren und herauszufiltern, und führe gegnerische Tests und Red-Teaming-Übungen durch, um herauszufinden, wie böswillige Akteure Produkte angreifen könnten, die auf Sprachmodellen basieren. „Wir verwenden speziell geschulte Modelle, um bekannte bösartige Eingaben und bekannte unsichere Ausgaben zu identifizieren, die gegen unsere Richtlinien verstoßen“, sagte der Sprecher.

source site

Leave a Reply