Die neuen KI-Modelle von Meta können Sprache für mehr als 1.000 Sprachen erkennen und produzieren

Es gibt rund 7.000 Sprachen auf der Welt, doch existierende Spracherkennungsmodelle decken nur etwa 100 davon umfassend ab. Dies liegt daran, dass für diese Art von Modellen in der Regel große Mengen an gekennzeichneten Trainingsdaten erforderlich sind, die nur für eine kleine Anzahl von Sprachen verfügbar sind, darunter Englisch, Spanisch und Chinesisch.

Meta-Forscher haben dieses Problem umgangen, indem sie ein bestehendes KI-Modell, das das Unternehmen im Jahr 2020 entwickelt hatte, neu trainierten und Sprachmuster aus Audio lernen können, ohne dass große Mengen gekennzeichneter Daten wie Transkripte erforderlich sind.

Sie trainierten es anhand von zwei neuen Datensätzen: einer, der Audioaufnahmen der Bibel des Neuen Testaments und den entsprechenden Text aus dem Internet in 1.107 Sprachen enthält, und ein anderer, der unbeschriftete Audioaufnahmen des Neuen Testaments in 3.809 Sprachen enthält. Das Team verarbeitete das Sprachaudio und die Textdaten, um deren Qualität zu verbessern, bevor es einen Algorithmus ausführte, der die Audioaufzeichnungen mit dem Begleittext abgleichen sollte. Anschließend wiederholten sie diesen Vorgang mit einem zweiten Algorithmus, der auf den neu ausgerichteten Daten trainiert wurde. Mit dieser Methode konnten die Forscher dem Algorithmus beibringen, eine neue Sprache einfacher zu lernen, auch ohne den Begleittext.

„Wir können das, was dieses Modell gelernt hat, nutzen, um dann schnell Sprachsysteme mit sehr, sehr wenigen Daten zu erstellen“, sagt Michael Auli, ein Forschungswissenschaftler bei Meta, der an dem Projekt gearbeitet hat.

„Für Englisch haben wir viele, viele gute Datensätze, und wir haben die für einige weitere Sprachen, aber wir haben sie einfach nicht für Sprachen, die beispielsweise von 1.000 Menschen gesprochen werden.“

Die Forscher sagen, dass ihre Modelle sich in über 1.000 Sprachen unterhalten können, aber mehr als 4.000 erkennen.

Sie verglichen die Modelle mit denen von Konkurrenzunternehmen, darunter OpenAI Whisper, und behaupteten, dass ihre Modelle die Hälfte der Fehlerquote aufwiesen, obwohl sie elfmal mehr Sprachen abdeckten.

Das Team warnt jedoch davor, dass das Modell immer noch Gefahr läuft, bestimmte Wörter oder Phrasen falsch zu transkribieren, was zu ungenauen oder möglicherweise anstößigen Bezeichnungen führen könnte. Sie erkennen auch an, dass ihre Spracherkennungsmodelle mehr voreingenommene Wörter lieferten als andere Modelle, wenn auch nur 0,7 % mehr.

Während der Umfang der Forschung beeindruckend ist, kann die Verwendung religiöser Texte zum Trainieren von KI-Modellen umstritten sein, sagt Chris Emezue, ein Forscher bei Masakhane, einer Organisation, die sich mit der Verarbeitung natürlicher Sprache für afrikanische Sprachen beschäftigt und nicht an dem Projekt beteiligt war .

„Die Bibel enthält viele Voreingenommenheiten und Falschdarstellungen“, sagt er.

source site

Leave a Reply