Tag: GPT4o
Der jüngste Fehler von OpenAI zeigt die Herausforderungen, vor denen chinesische KI-Modelle stehen
Tatsächlich sind zwei der wenigen langen chinesischen Token in GPT-4o, die weder Pornografie noch Glücksspielunsinn sind, „Sozialismus mit chinesischen Merkmalen“ und „Volksrepublik China“. Das Vorhandensein dieser Ausdrücke deutet darauf hin, dass ein erheblicher Teil der Trainingsdaten tatsächlich aus Schriften chinesischer Staatsmedien stammt, in denen formelle, lange Ausdrücke äußerst häufig vorkommen.
OpenAI war in der Vergangenheit sehr zurückhaltend, was die Daten angeht, die es zum Trainieren seiner Modelle verwendet, und es wird uns wahrscheinlich nie sagen, wie viel von seiner chinesischen
Der Download: Die verunreinigten chinesischen Trainingsdaten von GPT-4o und die KI-Herausforderung der Astronomie
Kurz nachdem OpenAI letzten Montag GPT-4o veröffentlicht hatte, bemerkten einige Chinesischsprachige, dass etwas an dieser neuesten Version des Chatbots nicht stimmte: Die Token, die er zum Parsen von Texten verwendet, waren voller Spam und pornografischer Phrasen.
Menschen lesen in Worten, LLMs hingegen lesen in Tokens, das sind unterschiedliche Einheiten in einem Satz, die konsistente und bedeutsame Bedeutungen haben. GPT-4o soll bei der Bewältigung mehrsprachiger Aufgaben besser sein als seine Vorgänger, und viele der Fortschritte wurden durch ein neues Tokenisierungstool erzielt,
Die chinesischen Token-Trainingsdaten von GPT-4o werden durch Spam und Porno-Websites verunreinigt
Der neue Tokenizer umfasst insgesamt 200.000 Token und etwa 25 % sind in nicht-englischen Sprachen, sagt Deedy Das, ein KI-Investor bei Menlo Ventures. Er verwendete Sprachfilter, um die Anzahl der Token in verschiedenen Sprachen zu zählen. Die wichtigsten Sprachen sind neben Englisch Russisch, Arabisch und Vietnamesisch.
„Meiner Meinung nach besteht die Hauptauswirkung des Tokenizers darin, dass man die Kosten in diesen Sprachen senkt, und nicht darin, dass die Qualität in diesen Sprachen dramatisch steigt“, sagt Das. Wenn ein LLM über
Der Download: GPT-4o von OpenAI und was bei Google I/O kommt
Die Nachrichten: OpenAI hat gerade GPT-4o vorgestellt, eine neue Art von KI-Modell, mit dem Sie in Echtzeit über Live-Sprachgespräche, Videostreams von Ihrem Telefon und Text kommunizieren können. Das Modell wird in den nächsten Wochen eingeführt und wird nach Angaben des Unternehmens für alle Benutzer sowohl über die GPT-App als auch über die Weboberfläche kostenlos sein.
Wie unterscheidet es sich von GPT-4? GPT-4 bietet Benutzern außerdem mehrere Möglichkeiten, mit den KI-Angeboten von OpenAI zu interagieren. Allerdings wurden sie in separaten Modellen
Mit dem neuen GPT-4o von OpenAI können Menschen im selben Modell per Sprache oder Video interagieren
GPT-4 bot ähnliche Funktionen und bot Benutzern mehrere Möglichkeiten, mit den KI-Angeboten von OpenAI zu interagieren. Allerdings wurden sie in separaten Modellen isoliert, was zu längeren Reaktionszeiten und vermutlich höheren Rechenkosten führte. GPT-4o hat diese Fähigkeiten nun in einem einzigen Modell zusammengefasst, das Murati als „Omnimodell“ bezeichnet. Das bedeute schnellere Reaktionen und reibungslosere Übergänge zwischen Aufgaben, sagte sie.
Das Ergebnis, so die Demonstration des Unternehmens, ist ein Gesprächsassistent, der weitgehend an Siri oder Alexa erinnert, aber in der Lage ist,