Googles neue Infini-Aufmerksamkeit und SEO

Google hat ein Forschungspapier zu einer neuen Technologie namens Infini-attention veröffentlicht, die es ihr ermöglicht, enorm große Datenmengen mit „unendlich langen Kontexten“ zu verarbeiten und gleichzeitig problemlos in andere Modelle eingefügt werden kann, um deren Fähigkeiten erheblich zu verbessern

Der letzte Teil dürfte für diejenigen von Interesse sein, die sich für den Algorithmus von Google interessieren. Infini-attention ist Plug-and-Play-fähig, was bedeutet, dass es relativ einfach in andere Modelle eingefügt werden kann, einschließlich derjenigen, die vom Kernalgorithmus von Google verwendet werden. Der Teil über „unendlich lange Kontexte“ könnte Auswirkungen darauf haben, wie einige der Suchsysteme von Google aktualisiert werden können.

Der Name der Forschungsarbeit lautet: Lassen Sie keinen Kontext zurück: Effiziente unendliche Kontexttransformatoren mit unendlicher Aufmerksamkeit

Speicher ist für LLMs rechenintensiv

Bei Large Language Models (LLM) sind die Datenmengen, die sie gleichzeitig verarbeiten können, begrenzt, da die Rechenkomplexität und die Speichernutzung erheblich ansteigen können. Infini-Attention gibt dem LLM die Möglichkeit, längere Kontexte zu verarbeiten und gleichzeitig den Speicher- und Rechenleistungsbedarf gering zu halten.

Das Forschungspapier erklärt:

„Das Gedächtnis ist ein Eckpfeiler der Intelligenz, da es effiziente Berechnungen ermöglicht, die auf bestimmte Kontexte zugeschnitten sind. Transformers … und Transformer-basierte LLMs … verfügen jedoch aufgrund der Art des Aufmerksamkeitsmechanismus über ein eingeschränktes kontextabhängiges Gedächtnis.

Tatsächlich ist die Skalierung von LLMs auf längere Sequenzen (d. h. 1 Mio. Token) mit den Standard-Transformer-Architekturen eine Herausforderung und die Bereitstellung immer längerer Kontextmodelle wird finanziell kostspielig.“

Und an anderer Stelle erklärt das Forschungspapier:

„Stromwandlermodelle sind aufgrund der quadratisch steigenden Rechen- und Speicherkosten nur begrenzt in der Lage, lange Sequenzen zu verarbeiten. Infini-attention zielt darauf ab, dieses Skalierbarkeitsproblem anzugehen.“

Die Forscher stellten die Hypothese auf, dass Infini-attention mit Transformers so skaliert werden kann, dass es extrem lange Sequenzen ohne die üblichen Erhöhungen der Rechen- und Speicherressourcen verarbeiten kann.

Drei wichtige Funktionen

Googles Infini-attention behebt die Mängel von Transformer-Modellen durch die Integration von drei Funktionen, die es transformatorbasierten LLMs ermöglichen, längere Sequenzen ohne Speicherprobleme zu verarbeiten und ihnen die Möglichkeit zu geben, den Kontext früherer Daten in der Sequenz zu verwenden und ihn mit dem weiter entfernten Kontext abzugleichen Ende der Sequenz.

Die Funktionen von Infini-Attention

  • Komprimierendes Speichersystem
  • Langfristige lineare Aufmerksamkeit
  • Lokale maskierte Aufmerksamkeit

Komprimierendes Speichersystem

Infini-attention verwendet ein sogenanntes komprimierendes Speichersystem. Wenn mehr Daten eingegeben werden (als Teil einer langen Datensequenz), komprimiert das komprimierende Speichersystem einige der älteren Informationen, um den zum Speichern der Daten benötigten Speicherplatz zu reduzieren.

Langfristige lineare Aufmerksamkeit

Infini-Attention nutzt auch sogenannte „langfristige lineare Aufmerksamkeitsmechanismen“, die es dem LLM ermöglichen, Daten zu verarbeiten, die früher in der Sequenz vorhanden sind.

Dies ist wichtig für Aufgaben, bei denen der Kontext auf einer größeren Datenebene vorhanden ist. Es ist, als ob man ein ganzes Buch im Kontext aller Kapitel besprechen und erklären könnte, wie sich das erste Kapitel auf ein anderes Kapitel in der Mitte des Buches bezieht.

Lokale maskierte Aufmerksamkeit

Zusätzlich zur Langzeitaufmerksamkeit nutzt Infini-Aufmerksamkeit auch die sogenannte lokale maskierte Aufmerksamkeit. Diese Art der Aufmerksamkeit verarbeitet nahe gelegene (lokale) Teile der Eingabedaten, was für Antworten nützlich ist, die von den näheren Teilen der Daten abhängen.

Die Kombination von langfristiger und lokaler Aufmerksamkeit trägt dazu bei, das Problem zu lösen, dass Transformatoren darauf beschränkt sind, wie viele Eingabedaten sie sich merken und für den Kontext verwenden können.

Die Forscher erklären:

„Die Infini-Aufmerksamkeit integriert ein komprimierendes Gedächtnis in den Vanilla-Aufmerksamkeitsmechanismus und baut sowohl maskierte lokale Aufmerksamkeit als auch langfristige lineare Aufmerksamkeitsmechanismen in einem einzigen Transformer-Block ein.“

Ergebnisse von Experimenten und Tests

Infini-attention wurde mit regulären Modellen zum Vergleich über mehrere Benchmarks getestet, die lange Eingabesequenzen umfassten, wie z. B. Sprachmodellierung mit langem Kontext, Passkey-Abruf und Buchzusammenfassungsaufgaben. Der Passkey-Abruf ist ein Test, bei dem das Sprachmodell bestimmte Daten aus einer extrem langen Textsequenz abrufen muss.

Liste der drei Tests:

  1. Langkontext-Sprachmodellierung
  2. Passkey-Test
  3. Buchzusammenfassung

Langkontext-Sprachmodellierung und der Perplexity Score

Die Forscher schreiben, dass die Modelle mit Infini-Aufmerksamkeit die Basismodelle übertrafen und dass eine Erhöhung der Trainingssequenzlänge noch weitere Verbesserungen bei der Ratlosigkeitsbewertung. Der Perplexity-Score ist eine Metrik, die die Leistung des Sprachmodells misst, wobei niedrigere Scores auf eine bessere Leistung hinweisen.

Die Forscher teilten ihre Ergebnisse mit:

„Infini-Transformer übertrifft sowohl die Transformer-XL- als auch die Memorizing Transformers-Basislinien und behält gleichzeitig 114-mal weniger Speicherparameter bei als das Memorizing Transformer-Modell mit einem auf Vektorabruf basierenden KV-Speicher mit einer Länge von 65 KB auf der 9. Ebene. Infini-Transformer übertrifft Speichertransformatoren mit einer Speicherlänge von 65 KB und erreicht ein 114-faches Komprimierungsverhältnis.

Wir haben die Länge der Trainingssequenz von 32 KB weiter auf 100 KB erhöht und die Modelle auf dem Arxiv-Math-Datensatz trainiert. Das 100-km-Training senkte den Ratlosigkeitswert weiter auf 2,21 und 2,20 für die Modelle Linear und Linear + Delta.“

Passkey-Test

Beim Passkey-Test wird eine Zufallszahl in einer langen Textsequenz versteckt, wobei die Aufgabe darin besteht, dass das Modell den versteckten Text abrufen muss. Der Passkey wird entweder am Anfang, in der Mitte oder am Ende des Langtextes versteckt. Das Modell konnte den Passkey-Test bis zu einer Länge von 1 Million lösen.

„Ein 1B-LLM lässt sich natürlich auf eine Sequenzlänge von 1M skalieren und löst die Aufgabe des Passkey-Abrufs, wenn es mit Infini-attention injiziert wird. Infini-Transformers löste die Passkey-Aufgabe mit einer Kontextlänge von bis zu 1 MB bei Feinabstimmung auf Eingaben mit einer Länge von 5 KB. Wir berichten über die Abrufgenauigkeit auf Token-Ebene für Passkeys, die in einem anderen Teil (Anfang/Mitte/Ende) langer Eingaben mit Längen von 32 KB bis 1 MB versteckt sind.“

Buchzusammenfassungstest

Infini-attention schnitt auch beim Buchzusammenfassungstest hervorragend ab, indem es die Top-Benchmarks übertraf und neue Leistungsniveaus auf dem neuesten Stand der Technik (SOTA) erreichte.

Die Ergebnisse werden beschrieben:

„Schließlich zeigen wir, dass ein 8B-Modell mit Infini-Aufmerksamkeit nach kontinuierlichem Vortraining und Feinabstimmung der Aufgabe ein neues SOTA-Ergebnis bei einer Buchzusammenfassungsaufgabe mit einer Länge von 500.000 erreicht.

…Wir haben unseren Ansatz weiter skaliert, indem wir kontinuierlich ein 8B-LLM-Modell mit 8K-Eingabelänge für 30K-Schritte vorab trainiert haben. Anschließend haben wir eine Buchzusammenfassungsaufgabe, BookSum (Kry´sci´nski et al., 2021), verfeinert, deren Ziel darin besteht, eine Zusammenfassung eines gesamten Buchtextes zu erstellen.

Unser Modell übertrifft die bisherigen besten Ergebnisse und erreicht einen neuen SOTA auf BookSum, indem es den gesamten Text aus dem Buch verarbeitet. …Es gibt einen klaren Trend, der zeigt, dass unser Infini-Transformers seine Zusammenfassungsleistungsmetrik verbessert, wenn mehr Text als Eingabe aus Büchern bereitgestellt wird.“

Auswirkungen von Infini-Attention auf SEO

Infini-Attention ist ein Durchbruch bei der Modellierung der Aufmerksamkeit über große und kurze Entfernungen hinweg mit größerer Effizienz als frühere Modelle ohne Infini-Attention. Es unterstützt auch „Kontinuierliches Plug-and-Play-Vortraining und langfristige Kontextanpassung durch DesignDas bedeutet, dass es problemlos in bestehende Modelle integriert werden kann.

Schließlich die „Kontinuierliches Vortraining und langfristige Kontextanpassung„macht es ideal für Szenarien, in denen ständig neue Daten hinzugefügt werden müssen, um ein Modell zu trainieren. Der letzte Teil ist äußerst interessant, da er möglicherweise für Anwendungen im Backend der Google-Suchsysteme nützlich ist, insbesondere dort, wo es erforderlich ist, lange Informationssequenzen zu analysieren und die Relevanz eines Teils am Anfang der Sequenz zu verstehen zu einem anderen Teil, der näher am Ende liegt.

Die Tatsache, dass die Forscher „unendlich lange Eingaben“ behaupten, ist erstaunlich, aber was für SEO wirklich wichtig ist, ist, dass dieser Mechanismus die Fähigkeit ist, lange Datensequenzen zu verarbeiten, um „keinen Kontext zurückzulassen“, sowie den Plug-and-Play-Aspekt von Es. Es gibt eine Vorstellung davon, wie einige der Systeme von Google verbessert werden könnten, wenn Google Infini-attention an Systeme innerhalb seines Kernalgorithmus anpassen würde.

Lesen Sie den Forschungsbericht:

Lassen Sie keinen Kontext zurück: Effiziente unendliche Kontexttransformatoren mit unendlicher Aufmerksamkeit

Ausgewähltes Bild von Shutterstock/JHVEPhoto

source site

Leave a Reply