Google DeepMind RecurrentGemma schlägt Transformer-Modelle

Google DeepMind hat ein Forschungspapier veröffentlicht, in dem ein Sprachmodell namens RecurrentGemma vorgeschlagen wird, das mit der Leistung transformatorbasierter Modelle mithalten oder diese sogar übertreffen kann und gleichzeitig speichereffizienter ist, was die Leistung großer Sprachmodelle in Umgebungen mit begrenzten Ressourcen verspricht.

Die Forschungsarbeit bietet einen kurzen Überblick:

„Wir stellen RecurrentGemma vor, ein offenes Sprachmodell, das Googles neuartige Griffin-Architektur nutzt. Griffin kombiniert lineare Wiederholungen mit lokaler Aufmerksamkeit, um hervorragende Sprachleistungen zu erzielen. Der Zustand hat eine feste Größe, was den Speicherverbrauch reduziert und effiziente Rückschlüsse auf lange Sequenzen ermöglicht. Wir stellen ein vorab trainiertes Modell mit 2B nicht einbettenden Parametern und eine auf Anweisungen abgestimmte Variante bereit. Beide Modelle erreichen eine vergleichbare Leistung wie Gemma-2B, obwohl sie mit weniger Token trainiert werden.“

Verbindung zu Gemma

Gemma ist ein offenes Modell, das die erstklassige Gemini-Technologie von Google nutzt, aber leichtgewichtig ist und auf Laptops und Mobilgeräten ausgeführt werden kann. Ähnlich wie Gemma kann RecurrentGemma auch in Umgebungen mit begrenzten Ressourcen funktionieren. Weitere Ähnlichkeiten zwischen Gemma und RecurrentGemma bestehen in den Pre-Training-Daten, der Anweisungsoptimierung und RLHF (Reinforcement Learning From Human Feedback). RLHF ist eine Möglichkeit, menschliches Feedback zu nutzen, um ein Modell für die generative KI so zu trainieren, dass es selbstständig lernt.

Griffin-Architektur

Das neue Modell basiert auf einem vor einigen Monaten angekündigten Hybridmodell namens Griffin. Griffin wird als „hybrides“ Modell bezeichnet, weil es zwei Arten von Technologien verwendet: Eine ermöglicht es ihm, lange Informationssequenzen effizient zu verarbeiten, während die andere es ihm ermöglicht, sich auf die aktuellsten Teile der Eingabe zu konzentrieren, was ihm die Fähigkeit zur Verarbeitung verleiht „deutlich“ mehr Daten (erhöhter Durchsatz) in der gleichen Zeitspanne wie transformatorbasierte Modelle und verringern auch die Wartezeit (Latenz).

In der Forschungsarbeit von Griffin wurden zwei Modelle vorgeschlagen, eines mit dem Namen Hawk und das andere mit dem Namen Griffin. Das Griffin-Forschungspapier erklärt, warum es sich um einen Durchbruch handelt:

„… wir validieren empirisch die Inferenzzeitvorteile von Hawk und Griffin und beobachten eine geringere Latenz und einen deutlich höheren Durchsatz im Vergleich zu unseren Transformer-Basislinien. Schließlich zeigen Hawk und Griffin die Fähigkeit, auf längere Sequenzen zu extrapolieren, als sie trainiert wurden, und sind in der Lage, effizient zu lernen, Daten über lange Zeithorizonte hinweg zu kopieren und abzurufen. Diese Ergebnisse deuten stark darauf hin, dass unsere vorgeschlagenen Modelle eine leistungsstarke und effiziente Alternative zu Transformers mit weltweiter Aufmerksamkeit darstellen.“

Der Unterschied zwischen Griffin und RecurrentGemma besteht in einer Modifikation, die damit zusammenhängt, wie das Modell Eingabedaten verarbeitet (Eingabeeinbettungen).

Durchbrüche

Im Forschungspapier heißt es, dass RecurrentGemma eine ähnliche oder bessere Leistung bietet als das konventionellere Gemma-2b-Transformatormodell (das auf 3 Billionen Token trainiert wurde, gegenüber 2 Billionen für RecurrentGemma). Dies ist einer der Gründe, warum das Forschungspapier den Titel „Moving Past Transformer Models“ trägt, weil es einen Weg aufzeigt, eine höhere Leistung ohne den hohen Ressourcenaufwand der Transformatorarchitektur zu erreichen.

Ein weiterer Vorteil gegenüber Transformer-Modellen liegt in der geringeren Speichernutzung und den schnelleren Verarbeitungszeiten. Das Forschungspapier erklärt:

„Ein wesentlicher Vorteil von RecurrentGemma besteht darin, dass es eine deutlich kleinere Zustandsgröße als Transformatoren bei langen Sequenzen hat. Während der KV-Cache von Gemma proportional zur Sequenzlänge wächst, ist der Status von RecurrentGemma begrenzt und erhöht sich nicht bei Sequenzen, die länger als die lokale Aufmerksamkeitsfenstergröße von 2.000 Token sind. Während also die längste Stichprobe, die von Gemma autoregressiv generiert werden kann, durch den auf dem Host verfügbaren Speicher begrenzt ist, kann RecurrentGemma Sequenzen beliebiger Länge generieren.“

RecurrentGemma übertrifft das Gemma-Transformermodell auch beim Durchsatz (Datenmenge, die verarbeitet werden kann, je höher, desto besser). Der Durchsatz des Transformer-Modells leidet bei höheren Sequenzlängen (Erhöhung der Anzahl der Token oder Wörter), aber das ist bei RecurrentGemma nicht der Fall, das einen hohen Durchsatz aufrechterhalten kann.

Die Forschungsarbeit zeigt:

„In Abbildung 1a stellen wir den Durchsatz dar, der bei der Stichprobenentnahme aus einer Eingabeaufforderung von 2.000 Token für einen Bereich von Generationslängen erreicht wird. Der Durchsatz berechnet die maximale Anzahl an Token, die wir pro Sekunde auf einem einzelnen TPUv5e-Gerät abtasten können.

…RecurrentGemma erreicht bei allen berücksichtigten Sequenzlängen einen höheren Durchsatz. Der von RecurrentGemma erreichte Durchsatz verringert sich nicht mit zunehmender Sequenzlänge, während der von Gemma erreichte Durchsatz mit zunehmendem Cache sinkt.“

Einschränkungen von RecurrentGemma

Das Forschungspapier zeigt, dass dieser Ansatz seine eigene Einschränkung hat, da die Leistung im Vergleich zu herkömmlichen Transformatormodellen zurückbleibt.

Die Forscher weisen auf eine Einschränkung bei der Verarbeitung sehr langer Sequenzen hin, die Transformatormodelle bewältigen können.

Laut dem Papier:

„Obwohl RecurrentGemma-Modelle für kürzere Sequenzen hocheffizient sind, kann ihre Leistung bei der Verarbeitung extrem langer Sequenzen, die das lokale Aufmerksamkeitsfenster überschreiten, hinter traditionellen Transformatormodellen wie Gemma-2B zurückbleiben.“

Was das für die reale Welt bedeutet

Die Bedeutung dieses Ansatzes für Sprachmodelle besteht darin, dass er nahelegt, dass es andere Möglichkeiten gibt, die Leistung von Sprachmodellen zu verbessern und gleichzeitig weniger Rechenressourcen auf einer Architektur zu verbrauchen, die kein Transformatormodell ist. Dies zeigt auch, dass ein Nicht-Transformer-Modell eine der Einschränkungen der Cache-Größen von Transformer-Modellen überwinden kann, die tendenziell zu einer erhöhten Speichernutzung führen.

Dies könnte in naher Zukunft zu Anwendungen von Sprachmodellen führen, die in Umgebungen mit begrenzten Ressourcen funktionieren können.

Lesen Sie das Google DeepMind-Forschungspapier:

RecurrentGemma: Überwindung von Transformatoren für effiziente offene Sprachmodelle (PDF)

Ausgewähltes Bild von Shutterstock/Photo For Everything

source site

Leave a Reply