Die chinesischen Token-Trainingsdaten von GPT-4o werden durch Spam und Porno-Websites verunreinigt

Der neue Tokenizer umfasst insgesamt 200.000 Token und etwa 25 % sind in nicht-englischen Sprachen, sagt Deedy Das, ein KI-Investor bei Menlo Ventures. Er verwendete Sprachfilter, um die Anzahl der Token in verschiedenen Sprachen zu zählen. Die wichtigsten Sprachen sind neben Englisch Russisch, Arabisch und Vietnamesisch.

„Meiner Meinung nach besteht die Hauptauswirkung des Tokenizers darin, dass man die Kosten in diesen Sprachen senkt, und nicht darin, dass die Qualität in diesen Sprachen dramatisch steigt“, sagt Das. Wenn ein LLM über bessere und längere Token in nicht-englischen Sprachen verfügt, kann es die Eingabeaufforderungen schneller analysieren und den Benutzern weniger Gebühren für die gleiche Antwort berechnen. Mit dem neuen Tokenizer „rechnet man mit einer fast vierfachen Kostenreduzierung“, sagt er.

Das, der auch Hindi und Bengali spricht, hat einen Blick auf die längsten Token in diesen Sprachen geworfen. Die Token spiegeln Diskussionen wider, die in diesen Sprachen stattfinden, daher enthalten sie Wörter wie „Narendra“ oder „Pakistan“, aber gebräuchliche englische Begriffe wie „Premierminister“, „Universität“ und „International“.kommen auch häufig vor. Sie weisen auch nicht auf die Probleme im Zusammenhang mit den chinesischen Token hin.

Das spiegelt wahrscheinlich die Trainingsdaten in diesen Sprachen wider, sagt Das: „Meine Arbeitstheorie ist, dass die Websites in Hindi und Bengali sehr rudimentär sind. Es ist wie [mostly] Zeitungsartikel. Daher würde ich erwarten, dass dies der Fall ist. Es gibt nicht viele Spam-Bots und Porno-Websites, die versuchen, in diesen Sprachen zu funktionieren. Es wird größtenteils auf Englisch sein.“

Verschmutzte Daten und mangelnde Reinigung

Auf Chinesisch sieht es jedoch drastisch anders aus. Laut mehreren Forschern, die sich mit der neuen Token-Bibliothek für GPT-4o befasst haben, handelt es sich bei den längsten Token auf Chinesisch fast ausschließlich um Spam-Wörter, die in Zusammenhang mit Pornografie, Glücksspiel und Betrug verwendet werden. Auch kürzere Zeichen, wie etwa drei Zeichen lange chinesische Wörter, spiegeln diese Themen in erheblichem Maße wider.

„Das Problem ist klar: Der Korpus wurde zum Trainieren verwendet [the tokenizer] ist nicht sauber. Die englischen Token scheinen in Ordnung zu sein, die chinesischen jedoch nicht“, sagt Cai von der Princeton University. Es kommt nicht selten vor, dass ein Sprachmodell beim Sammeln von Trainingsdaten Spam crawlt, aber in der Regel ist ein erheblicher Aufwand erforderlich, um die Daten vor ihrer Verwendung zu bereinigen. „Es ist möglich, dass sie beim Chinesisch keine ordnungsgemäße Datenbereinigung durchgeführt haben“, sagt er.

Der Inhalt dieser chinesischen Token könnte darauf hindeuten, dass sie durch ein bestimmtes Phänomen verunreinigt wurden: Websites, die nicht verwandte Inhalte auf Chinesisch oder anderen Sprachen kapern, um Spam-Nachrichten zu verbreiten.

Bei diesen Nachrichten handelt es sich häufig um Werbung für pornografische Videos und Glücksspiel-Websites. Dabei kann es sich um echte Unternehmen oder lediglich um Betrug handeln. Und die Sprache wird in Content-Farm-Websites oder manchmal auch in legitime Websites eingefügt, damit diese von Suchmaschinen indiziert werden, die Spam-Filter umgangen werden und bei zufälligen Suchanfragen auftauchen können. Beispielsweise hat Google eine Suchergebnisseite auf einer Website des US National Institutes of Health indiziert, auf der eine Pornoseite auf Chinesisch aufgeführt ist. Der gleiche Site-Name erschien auch in mindestens fünf chinesischen Token in GPT-4o.

source site

Leave a Reply