OpenAI GPT-4 kommt Mitte März 2023 und ist riesig

Andreas Braun, CTO von Microsoft Deutschland, bestätigte, dass GPT-4 innerhalb einer Woche nach dem 9. März 2023 kommt und multimodal sein wird. Multimodale KI bedeutet, dass sie in der Lage sein wird, mit mehreren Arten von Eingaben wie Video, Bildern und Ton zu arbeiten.

Multimodale große Sprachmodelle

Die große Erkenntnis aus der Ankündigung ist, dass GPT-4 multimodal ist (SEJ prognostizierte, dass GPT-4 im Januar 2023 multimodal ist).

Modalität ist ein Verweis auf den Eingabetyp, mit dem sich (in diesem Fall) ein großes Sprachmodell befasst.

Multimodal kann Text, Sprache, Bilder und Videos umfassen.

GPT-3 und GPT-3.5 arbeiteten nur in einer Modalität, Text.

Laut dem deutschen Nachrichtenbericht kann GPT-4 möglicherweise in mindestens vier Modalitäten arbeiten: Bild, Ton (auditiv), Text und Video.

Dr. Andreas Braun, CTO Microsoft Deutschland wird zitiert:

„Nächste Woche stellen wir GPT-4 vor, da werden wir multimodale Modelle haben, die ganz andere Möglichkeiten bieten werden – zum Beispiel Videos…“

Der Berichterstattung fehlten Einzelheiten für GPT-4, daher ist unklar, ob das, was über Multimodalität geteilt wurde, spezifisch für GPT-4 oder nur allgemein war.

Holger Kenn, Director Business Strategy von Microsoft, erklärte Multimodalitäten, aber die Berichterstattung war unklar, ob er sich auf GPT-4-Multimodalität oder Multimodalität im Allgemeinen bezog.

Ich glaube, seine Hinweise auf Multimodalität waren spezifisch für GPT-4.

Der Nachrichtenbericht teilte mit:

„Kenn hat erklärt, was es mit multimodaler KI auf sich hat, die Texte nicht nur entsprechend in Bilder übersetzen kann, sondern auch in Musik und Video.“

Eine weitere interessante Tatsache ist, dass Microsoft daran arbeitet „Vertrauensmetriken“, um ihre KI mit Fakten zu erden, um sie zuverlässiger zu machen.

Microsoft Kosmos-1

Etwas, das in den Vereinigten Staaten offenbar zu wenig berichtet wurde, ist, dass Microsoft Anfang März 2023 ein multimodales Sprachmodell namens Kosmos-1 veröffentlicht hat.

Laut der Berichterstattung der deutschen Nachrichtenseite Heise.de:

„…das Team hat das vortrainierte Modell verschiedenen Tests unterzogen, mit guten Ergebnissen bei der Klassifizierung von Bildern, der Beantwortung von Fragen zu Bildinhalten, der automatisierten Beschriftung von Bildern, der optischen Texterkennung und Aufgaben zur Spracherzeugung.

…Visual Reasoning, also Rückschlüsse auf Bilder zu ziehen, ohne Sprache als Zwischenschritt zu verwenden, scheint hier ein Schlüssel zu sein…“

Kosmos-1 ist ein multimodales Modal, das die Modalitäten von Text und Bild integriert.

GPT-4 geht weiter als Kosmos-1, da es eine dritte Modalität, Video, hinzufügt und anscheinend auch die Tonmodalität enthält.

Funktioniert in mehreren Sprachen

GPT-4 scheint in allen Sprachen zu funktionieren. Es wird beschrieben, dass eine Frage auf Deutsch empfangen und auf Italienisch beantwortet werden kann.

Das ist ein seltsames Beispiel, denn wer würde eine Frage auf Deutsch stellen und eine Antwort auf Italienisch erhalten wollen?

Das wurde bestätigt:

„…die Technik ist so weit, dass sie im Grunde „in allen Sprachen funktioniert“: Man kann eine Frage auf Deutsch stellen und bekommt eine Antwort auf Italienisch.

Mit Multimodalität wird Microsoft(-OpenAI) ‚die Modelle umfassend machen‘.“

Ich glaube, der Punkt des Durchbruchs ist, dass das Modell mit seiner Fähigkeit, Wissen über verschiedene Sprachen hinweg zu übertragen, über die Sprache hinausgeht. Wenn die Antwort also auf Italienisch ist, wird es sie kennen und in der Lage sein, die Antwort in der Sprache zu geben, in der die Frage gestellt wurde.

Das würde es dem Ziel von Googles multimodaler KI namens MUM ähneln. Mama soll Antworten auf Englisch geben können, für die die Daten nur in einer anderen Sprache existieren, etwa Japanisch.

GPT-4-Anwendungen

Es gibt derzeit keine Ankündigung, wo GPT-4 auftauchen wird. Aber Azure-OpenAI wurde ausdrücklich erwähnt.

Google hat Mühe, zu Microsoft aufzuschließen, indem es eine konkurrierende Technologie in die eigene Suchmaschine integriert. Diese Entwicklung verschärft die Wahrnehmung, dass Google ins Hintertreffen gerät und keine Führungsrolle bei der verbraucherorientierten KI einnimmt.

Google integriert KI bereits in mehrere Produkte wie Google Lens, Google Maps und andere Bereiche, in denen Verbraucher mit Google interagieren. Dieser Ansatz besteht darin, KI als unterstützende Technologie zu nutzen, um Menschen bei kleinen Aufgaben zu helfen.

Die Art und Weise, wie Microsoft es implementiert, ist sichtbarer und zieht folglich die gesamte Aufmerksamkeit auf sich und verstärkt das Bild von Google als zappelnd und um Aufholjagd kämpfend.

Lesen Sie hier die deutsche Originalberichterstattung:

GPT-4 kommt nächste Woche – und es wird multimodal sein, sagt Microsoft Deutschland

Vorgestelltes Bild von Shutterstock/Master1305


source site

Leave a Reply