Mit dem neuen GPT-4o von OpenAI können Menschen im selben Modell per Sprache oder Video interagieren

GPT-4 bot ähnliche Funktionen und bot Benutzern mehrere Möglichkeiten, mit den KI-Angeboten von OpenAI zu interagieren. Allerdings wurden sie in separaten Modellen isoliert, was zu längeren Reaktionszeiten und vermutlich höheren Rechenkosten führte. GPT-4o hat diese Fähigkeiten nun in einem einzigen Modell zusammengefasst, das Murati als „Omnimodell“ bezeichnet. Das bedeute schnellere Reaktionen und reibungslosere Übergänge zwischen Aufgaben, sagte sie.

Das Ergebnis, so die Demonstration des Unternehmens, ist ein Gesprächsassistent, der weitgehend an Siri oder Alexa erinnert, aber in der Lage ist, wesentlich komplexere Eingabeaufforderungen zu beantworten.

„Wir blicken auf die Zukunft der Interaktion zwischen uns und den Maschinen“, sagte Murati über die Demo. „Wir glauben, dass GPT-4o dieses Paradigma wirklich in die Zukunft der Zusammenarbeit verschiebt, wo diese Interaktion viel natürlicher wird.“

Barret Zoph und Mark Chen, beide Forscher bei OpenAI, gingen eine Reihe von Anwendungen für das neue Modell durch. Am beeindruckendsten war die Einrichtung mit Live-Gesprächen. Sie könnten das Modell während seiner Reaktionen unterbrechen, und es würde anhalten, zuhören und den Kurs anpassen.

OpenAI zeigte auch die Fähigkeit, den Ton des Modells zu ändern. Chen bat das Model, eine Gute-Nacht-Geschichte „über Roboter und Liebe“ vorzulesen, und griff schnell ein, um eine dramatischere Stimme zu fordern. Das Modell wurde immer theatralischer, bis Murati verlangte, dass es schnell zu einer überzeugenden Roboterstimme wechselte (was ihm hervorragend gelang). Während es während des Gesprächs erwartungsgemäß einige kurze Pausen gab, während das Model darüber nachdachte, was es als nächstes sagen sollte, stach es als bemerkenswert natürliches KI-Gespräch hervor.

source site

Leave a Reply