Der Download: Die verunreinigten chinesischen Trainingsdaten von GPT-4o und die KI-Herausforderung der Astronomie

Kurz nachdem OpenAI letzten Montag GPT-4o veröffentlicht hatte, bemerkten einige Chinesischsprachige, dass etwas an dieser neuesten Version des Chatbots nicht stimmte: Die Token, die er zum Parsen von Texten verwendet, waren voller Spam und pornografischer Phrasen.

Menschen lesen in Worten, LLMs hingegen lesen in Tokens, das sind unterschiedliche Einheiten in einem Satz, die konsistente und bedeutsame Bedeutungen haben. GPT-4o soll bei der Bewältigung mehrsprachiger Aufgaben besser sein als seine Vorgänger, und viele der Fortschritte wurden durch ein neues Tokenisierungstool erzielt, das Texte in nicht-englischen Sprachen besser komprimieren kann.

Aber zumindest in der chinesischen Sprache hat der neue Tokenizer, der von GPT-4o verwendet wird, unverhältnismäßig viele bedeutungslose Phrasen eingeführt – und Experten gehen davon aus, dass dies wahrscheinlich auf eine unzureichende Datenbereinigung und -filterung vor dem Training des Tokenizers zurückzuführen ist. Wenn das Problem nicht gelöst wird, kann es zu Halluzinationen, schlechter Leistung und Missbrauch kommen. Lesen Sie die ganze Geschichte.

—Zeyi Yang

Astronomen nutzen KI, um sich auf einen Datenregen vorzubereiten

In Wüsten in Australien und Südafrika pflanzen Astronomen Wälder aus Metalldetektoren, die gemeinsam den Kosmos nach Radiosignalen absuchen werden. Wenn es in etwa fünf Jahren hochfährt, wird das Square Kilometre Array Observatory nach neuen Informationen über die ersten Sterne des Universums und die verschiedenen Stadien der galaktischen Entwicklung suchen.

Doch nach der Synchronisierung Hunderttausender Schüsseln und Antennen stehen die Astronomen schnell vor einer neuen Herausforderung: Sie müssen jährlich rund 300 Petabyte kosmologischer Daten durchforsten – genug, um eine Million Laptops zu füllen. Um sich auf die Informationsflut vorzubereiten, wenden sich Astronomen daher an die KI, um Unterstützung zu erhalten. Lesen Sie die ganze Geschichte.

source site

Leave a Reply