Tag: RecurrentGemma
Google DeepMind RecurrentGemma schlägt Transformer-Modelle
Google DeepMind hat ein Forschungspapier veröffentlicht, in dem ein Sprachmodell namens RecurrentGemma vorgeschlagen wird, das mit der Leistung transformatorbasierter Modelle mithalten oder diese sogar übertreffen kann und gleichzeitig speichereffizienter ist, was die Leistung großer Sprachmodelle in Umgebungen mit begrenzten Ressourcen verspricht.
Die Forschungsarbeit bietet einen kurzen Überblick:
„Wir stellen RecurrentGemma vor, ein offenes Sprachmodell, das Googles neuartige Griffin-Architektur nutzt. Griffin kombiniert lineare Wiederholungen mit lokaler Aufmerksamkeit, um hervorragende Sprachleistungen zu erzielen. Der Zustand hat eine feste Größe, was den Speicherverbrauch