Laut DeepMind kann sein neues Sprachmodell andere um das 25-fache seiner Größe schlagen

Die KI mit dem Namen RETRO (für „Retrieval-Enhanced Transformer“) entspricht der Leistung neuronaler Netze um das 25-fache ihrer Größe und reduziert den Zeit- und Kostenaufwand für das Training sehr großer Modelle. Die Forscher behaupten auch, dass die Datenbank es einfacher macht, das Gelernte der KI zu analysieren, was dazu beitragen könnte, Voreingenommenheit und toxische Sprache herauszufiltern.

„Die Möglichkeit, Dinge im Handumdrehen nachschlagen zu können, anstatt sich alles merken zu müssen, kann oft genauso nützlich sein wie für Menschen“, sagt Jack Rae von DeepMind, der die Forschung des Unternehmens zu großen Sprachmodellen leitet.

Sprachmodelle generieren Text, indem sie vorhersagen, welche Wörter in einem Satz oder einer Konversation als nächstes kommen. Je größer ein Modell ist, desto mehr Informationen über die Welt kann es während des Trainings lernen, was seine Vorhersagen verbessert. GPT-3 hat 175 Milliarden Parameter – die Werte in einem neuronalen Netzwerk, die Daten speichern und angepasst werden, wenn das Modell lernt. Das Sprachmodell Megatron von Microsoft hat 530 Milliarden Parameter. Aber große Modelle erfordern auch enorme Rechenleistung, um sie zu trainieren, sodass sie für alle außer den reichsten Organisationen unerreichbar sind.

Mit RETRO hat DeepMind versucht, die Schulungskosten zu senken, ohne die Lernmenge der KI zu reduzieren. Die Forscher trainierten das Modell mit einem riesigen Datensatz von Nachrichtenartikeln, Wikipedia-Seiten, Büchern und Texten von GitHub, einem Online-Code-Repository. Der Datensatz enthält Text in 10 Sprachen, darunter Englisch, Spanisch, Deutsch, Französisch, Russisch, Chinesisch, Swahili und Urdu.

Das neuronale Netz von RETRO hat nur 7 Milliarden Parameter. Das macht das System jedoch mit einer Datenbank mit rund 2 Billionen Textpassagen wett. Sowohl die Datenbank als auch das neuronale Netz werden gleichzeitig trainiert.

Wenn RETRO Text generiert, verwendet es die Datenbank, um Passagen zu suchen und zu vergleichen, die denen, die es geschrieben hat, ähnlich sind, was seine Vorhersagen genauer macht. Durch die Auslagerung eines Teils des Speichers des neuronalen Netzes in die Datenbank kann RETRO mit weniger mehr erreichen.

Die Idee ist nicht neu, aber dies ist das erste Mal, dass ein Nachschlagesystem für ein großes Sprachmodell entwickelt wurde, und das erste Mal, dass die Ergebnisse dieses Ansatzes mit der Leistung der besten Sprach-KIs konkurrieren können.

Größer ist nicht immer besser

RETRO stützt sich auf zwei weitere Studien, die diese Woche von DeepMind veröffentlicht wurden.

Um die Größe zu untersuchen, hat DeepMind ein großes Sprachmodell namens Gopher mit 280 Milliarden Parametern erstellt. Es übertraf modernste Modelle bei 82 % der mehr als 150 gängigen Sprachherausforderungen, die zum Testen verwendet wurden. Die Forscher stellten es dann RETRO gegenüber und stellten fest, dass das 7-Milliarden-Parameter-Modell bei den meisten Aufgaben mit der Leistung von Gopher übereinstimmte.

Die Ethikstudie ist ein umfassender Überblick über bekannte Probleme, die großen Sprachmodellen innewohnen. Diese Modelle greifen Vorurteile, Fehlinformationen und giftige Sprache wie Hassreden aus den Artikeln und Büchern auf, an denen sie geschult wurden. Infolgedessen spucken sie manchmal schädliche Aussagen aus und spiegeln gedankenlos das, was ihnen im Schulungstext begegnet ist, ohne zu wissen, was es bedeutet. „Selbst ein Modell, das die Daten perfekt nachahmt, wäre verzerrt“, sagt Rae.

source site

Leave a Reply