Das neue Gemini-Modell von Google Deepmind sieht großartig aus – könnte aber den Höhepunkt des KI-Hypes signalisieren

„Das Modell ist von Natur aus leistungsfähiger“, sagte Sundar Pichai, CEO von Google und seiner Muttergesellschaft Alphabet, gegenüber MIT Technology Review. „Es ist eine Plattform. KI ist ein tiefgreifender Plattformwandel, der größer ist als das Web oder Mobilgeräte. Und deshalb ist es ein großer Schritt für uns.“

Es ist ein großer Schritt für Google, aber nicht unbedingt ein großer Fortschritt für die gesamte Branche. Google DeepMind behauptet, dass Gemini GPT-4 bei 30 von 32 Standardleistungsmaßstäben übertrifft. Und doch sind die Abstände zwischen ihnen gering. DeepMind hat die besten aktuellen Fähigkeiten der KI in einem leistungsstarken Paket zusammengefasst. Den Demos nach zu urteilen, macht es viele Dinge sehr gut – aber nur wenige Dinge, die wir noch nicht gesehen haben. Bei aller Aufregung über das nächste große Ding könnte Gemini ein Zeichen dafür sein, dass wir den Höhepunkt des KI-Hypes erreicht haben. Zumindest für jetzt.

Chirag Shah, ein auf Online-Suche spezialisierter Professor an der University of Washington, vergleicht den Start mit der Einführung eines neuen iPhones durch Apple jedes Jahr. „Vielleicht haben wir jetzt einfach eine andere Schwelle erreicht, bei der uns das nicht mehr so ​​sehr beeindruckt, weil wir einfach so viel gesehen haben“, sagt er.

Wie GPT-4 ist Gemini multimodal, das heißt, es ist darauf trainiert, mehrere Arten von Eingaben zu verarbeiten: Text, Bilder, Audio. Es kann diese verschiedenen Formate kombinieren, um Fragen zu allen Themen zu beantworten, von Hausarbeiten über Mathematik bis hin zu Wirtschaftswissenschaften.

In einer Demo für Journalisten zeigte Google gestern die Fähigkeit von Gemini, einen vorhandenen Screenshot eines Diagramms zu erstellen, Hunderte von Forschungsseiten mit neuen Daten zu analysieren und das Diagramm dann mit diesen neuen Informationen zu aktualisieren. In einem anderen Beispiel werden Zwillinge Bilder eines in einer Pfanne kochenden Omeletts gezeigt und gefragt (per Sprache, nicht per Text), ob das Omelett schon gekocht ist. „Es ist noch nicht fertig, weil die Eier noch flüssig sind“, antwortet es.

Die meisten Menschen müssen jedoch auf das volle Erlebnis warten. Die heute veröffentlichte Version ist ein Backend für Bard, den textbasierten Such-Chatbot von Google, der nach Angaben des Unternehmens erweiterte Argumentations-, Planungs- und Verständnisfähigkeiten bieten wird. Die vollständige Veröffentlichung von Gemini wird in den kommenden Monaten gestaffelt erfolgen. Der neue von Gemini unterstützte Bard wird zunächst in mehr als 170 Ländern auf Englisch verfügbar sein, ausgenommen die EU und das Vereinigte Königreich. Dies soll es dem Unternehmen ermöglichen, mit lokalen Regulierungsbehörden „zusammenzuarbeiten“, sagt Sissie Hsiao, eine für Bard zuständige Google-Vizepräsidentin.

Gemini gibt es außerdem in drei Größen: Ultra, Pro und Nano. Ultra ist die Vollversion; Pro und Nano sind auf Anwendungen zugeschnitten, die mit begrenzteren Rechenressourcen ausgeführt werden. Nano ist für die Ausführung auf Geräten wie den neuen Pixel-Telefonen von Google konzipiert. Entwickler und Unternehmen können ab dem 13. Dezember auf Gemini Pro zugreifen. Gemini Ultra, das leistungsstärkste Modell, wird „Anfang nächsten Jahres“ nach „umfassenden Vertrauens- und Sicherheitsprüfungen“ verfügbar sein, sagten Google-Führungskräfte Reportern in einem Pressegespräch.

„Ich betrachte es als die Zwillings-Ära der Models“, erzählte uns Pichai. „So wird Google DeepMind KI aufbauen und Fortschritte machen. Es wird also immer die Grenze darstellen, in der wir Fortschritte in der KI-Technologie machen.“

source site

Leave a Reply