Chinas Plan, die Sicherheit generativer KI zu beurteilen

Letzte Woche haben wir Klarheit darüber bekommen, wie das alles in der Praxis aussehen könnte.

Am 11. Oktober veröffentlichte eine chinesische Regierungsorganisation namens National Information Security Standardization Technical Committee einen Dokumententwurf, der detaillierte Regeln für die Bestimmung vorschlug, ob ein generatives KI-Modell problematisch ist. Das oft als TC260 abgekürzte Komitee konsultiert Unternehmensvertreter, Wissenschaftler und Regulierungsbehörden, um Regeln für die Technologiebranche zu Themen festzulegen, die von Cybersicherheit über Datenschutz bis hin zur IT-Infrastruktur reichen.

Im Gegensatz zu vielen Manifesten, die Sie vielleicht zur Regulierung von KI gesehen haben, ist dieses Standarddokument dies sehr detailliert: Es legt klare Kriterien dafür fest, wann eine Datenquelle vom Training generativer KI ausgeschlossen werden sollte, und es liefert Kennzahlen zur genauen Anzahl von Schlüsselwörtern und Beispielfragen, die zum Testen eines Modells vorbereitet werden sollten.

Matt Sheehan, Global Technology Fellow am Carnegie Endowment for International Peace, der das Dokument für mich markiert hat, sagte, als er es zum ersten Mal las, habe er „das Gefühl gehabt, es handele sich um das fundierteste und spezifischste Dokument im Zusammenhang mit der generativen KI-Regulierung.“ Er fügte hinzu, “Dies gibt Unternehmen im Wesentlichen eine Rubrik oder ein Leitfaden dafür an die Hand, wie sie die generativen KI-Vorschriften einhalten können, die viele vage Anforderungen enthalten.“

Außerdem wird klargestellt, was Unternehmen in KI-Modellen als „Sicherheitsrisiko“ betrachten sollten – und zwar seitdem Peking versucht, sowohl universelle Bedenken wie algorithmische Vorurteile als auch Inhalte loszuwerden, die nur im chinesischen Kontext sensibel sind. „Es ist eine Anpassung an die bereits sehr ausgefeilte Zensurinfrastruktur“, sagt er.

Wie sehen diese spezifischen Regeln aus?

Zum Training: Alle KI-Grundlagenmodelle werden derzeit auf vielen Korpora (Text- und Bilddatenbanken) trainiert, von denen einige Vorurteile und nicht moderierte Inhalte aufweisen. Die TC260-Standards verlangen, dass Unternehmen nicht nur die Korpora diversifizieren (Sprachen und Formate mischen), sondern auch die Qualität aller ihrer Schulungsmaterialien bewerten.

Wie? Unternehmen sollten 4.000 „Daten“ aus einer Quelle zufällig auswählen. Wenn mehr als 5 % der Daten als „illegale und negative Informationen“ gelten, sollte dieser Korpus für zukünftige Schulungen auf die schwarze Liste gesetzt werden.

source site

Leave a Reply