Der jüngste Fehler von OpenAI zeigt die Herausforderungen, vor denen chinesische KI-Modelle stehen

Tatsächlich sind zwei der wenigen langen chinesischen Token in GPT-4o, die weder Pornografie noch Glücksspielunsinn sind, „Sozialismus mit chinesischen Merkmalen“ und „Volksrepublik China“. Das Vorhandensein dieser Ausdrücke deutet darauf hin, dass ein erheblicher Teil der Trainingsdaten tatsächlich aus Schriften chinesischer Staatsmedien stammt, in denen formelle, lange Ausdrücke äußerst häufig vorkommen.

OpenAI war in der Vergangenheit sehr zurückhaltend, was die Daten angeht, die es zum Trainieren seiner Modelle verwendet, und es wird uns wahrscheinlich nie sagen, wie viel von seiner chinesischen Trainingsdatenbank staatliche Medien und wie viel Spam sind. (OpenAI hat nicht geantwortet MIT Technology Review(Die detaillierten Fragen wurden am Freitag gesendet.)

Doch es ist nicht das einzige Unternehmen, das mit diesem Problem zu kämpfen hat. Menschen in China, die in der KI-Branche arbeiten, sind sich einig, dass es an hochwertigen chinesischen Textdatensätzen für die Ausbildung von LLMs mangelt. Ein Grund dafür ist, dass das chinesische Internet früher und heute größtenteils von großen Unternehmen wie Tencent und ByteDance geteilt wurde. Sie besitzen die meisten sozialen Plattformen und werden ihre Daten nicht an Konkurrenten oder Dritte weitergeben, um LLMs auszubilden.

Tatsächlich ist das auch der Grund, warum Suchmaschinen, einschließlich Google, bei der Suche auf Chinesisch so schlecht sind. Da WeChat-Inhalte nur auf WeChat durchsucht werden können und Inhalte auf Douyin (dem chinesischen TikTok) nur auf Douyin durchsucht werden können, sind diese Daten für eine Suchmaschine eines Drittanbieters, geschweige denn für ein LLM, nicht zugänglich. Aber das sind die Plattformen, auf denen echte menschliche Gespräche stattfinden, und nicht irgendeine Spam-Website, die ständig versucht, Sie zum Online-Glücksspiel zu locken.

Der Mangel an qualitativ hochwertigen Trainingsdaten ist ein viel größeres Problem als das Versäumnis, Pornos und allgemeinen Unsinn in den Token-Trainingsdaten von GPT-4o herauszufiltern. Wenn kein Datensatz vorhanden ist, müssen KI-Unternehmen erhebliche Anstrengungen unternehmen, um ihre eigenen Datensätze zu identifizieren, zu beschaffen und zu kuratieren sowie unangemessene oder voreingenommene Inhalte herauszufiltern.

Offenbar hat OpenAI das nicht getan, was fairerweise durchaus Sinn macht, wenn man bedenkt, dass die Menschen in China seine KI-Modelle ohnehin nicht nutzen können.

Dennoch leben viele Menschen außerhalb Chinas, die KI-Dienste auf Chinesisch nutzen möchten. Und sie verdienen ein Produkt, das genauso gut funktioniert wie Sprecher einer anderen Sprache.

Wie können wir das Problem des Mangels an guten chinesischen LLM-Trainingsdaten lösen? Sagen Sie mir Ihre Idee unter [email protected].

source site

Leave a Reply