Der Datenhunger von OpenAI kommt zurück, um ihn zu beißen

In der KI-Entwicklung gilt das vorherrschende Paradigma: Je mehr Trainingsdaten, desto besser. Das GPT-2-Modell von OpenAI hatte einen Datensatz, der aus 40 Gigabyte Text bestand. GPT-3, auf dem ChatGPT basiert, wurde mit 570 GB Daten trainiert. OpenAI hat nicht mitgeteilt, wie groß der Datensatz für sein neuestes Modell GPT-4 ist.

Aber dieser Hunger nach größeren Modellen kommt jetzt zurück, um das Unternehmen zu beißen. In den letzten Wochen haben mehrere westliche Datenschutzbehörden Untersuchungen darüber eingeleitet, wie OpenAI die Daten sammelt und verarbeitet, die ChatGPT antreiben. Sie glauben, dass es die persönlichen Daten von Personen wie Namen oder E-Mail-Adressen abgekratzt und ohne ihre Zustimmung verwendet hat.

Die italienische Behörde hat die Nutzung von ChatGPT vorsorglich gesperrt, und auch französische, deutsche, irische und kanadische Datenregulierungsbehörden untersuchen, wie das OpenAI-System Daten sammelt und verwendet. Der Europäische Datenschutzausschuss, der Dachverband der Datenschutzbehörden, richtet außerdem eine EU-weite Task Force ein, um Ermittlungen und Durchsetzungsmaßnahmen rund um ChatGPT zu koordinieren.

Italien hat OpenAI bis zum 30. April Zeit gegeben, um dem Gesetz nachzukommen. Dies würde bedeuten, dass OpenAI die Menschen um Zustimmung bitten müsste, dass ihre Daten gelöscht werden, oder nachweisen müsste, dass es ein „berechtigtes Interesse“ an der Erfassung hat. OpenAI muss den Leuten auch erklären, wie ChatGPT ihre Daten verwendet, und ihnen die Möglichkeit geben, alle Fehler zu korrigieren, die der Chatbot über sie ausspuckt, ihre Daten löschen zu lassen, wenn sie wollen, und der Verwendung durch das Computerprogramm zu widersprechen.

Wenn OpenAI die Behörden nicht davon überzeugen kann, dass seine Datennutzungspraktiken legal sind, könnte es in bestimmten Ländern oder sogar in der gesamten Europäischen Union verboten werden. Es könnten auch hohe Bußgelder drohen und sogar gezwungen werden, Modelle und die Daten, mit denen sie trainiert wurden, zu löschen, sagt Alexis Leautier, KI-Experte bei der französischen Datenschutzbehörde CNIL.

Die Verstöße von OpenAI sind so eklatant, dass dieser Fall wahrscheinlich vor dem Gerichtshof der Europäischen Union landen wird, dem höchsten Gericht der EU, sagt Lilian Edwards, Professorin für Internetrecht an der Newcastle University. Es könnte Jahre dauern, bis wir eine Antwort auf die Fragen der italienischen Datenregulierungsbehörde sehen.

High-Stakes-Spiel

Die Einsätze für OpenAI könnten nicht höher sein. Die Datenschutz-Grundverordnung der EU ist das strengste Datenschutzregime der Welt und wurde weltweit vielfach kopiert. Aufsichtsbehörden überall von Brasilien bis Kalifornien werden genau darauf achten, was als nächstes passiert, und das Ergebnis könnte die Art und Weise, wie KI-Unternehmen Daten sammeln, grundlegend verändern.

OpenAI muss nicht nur transparenter in Bezug auf seine Datenpraktiken sein, sondern auch nachweisen, dass es einen von zwei möglichen legalen Wegen verwendet, um Trainingsdaten für seine Algorithmen zu sammeln: Zustimmung oder „berechtigtes Interesse“.

source site

Leave a Reply