Was Sie über dieses neue chinesische Text-zu-Video-KI-Modell wissen sollten

Die Kurzvideoplattform mit über 600 Millionen aktiven Nutzern kündigte das neue Tool am 6. Juni an. Es heißt Kling. Wie das Sora-Modell von OpenAI kann Kling Videos „von bis zu zwei Minuten Länge mit einer Bildrate von 30 Bildern pro Sekunde und einer Videoauflösung von bis zu 1080p“ erstellen, heißt es auf der Website des Unternehmens.

Doch anders als bei Sora, das auch vier Monate nach dem Test bei OpenAI noch immer nicht öffentlich zugänglich ist, ließ Kling die Leute das Modell schon bald selbst ausprobieren.

Ich war einer von ihnen. Ich erhielt Zugriff darauf, nachdem ich Kuaishous Videobearbeitungstool heruntergeladen, mich mit einer chinesischen Nummer angemeldet, mich auf eine Warteliste gesetzt und ein zusätzliches Formular über Kuaishous Benutzerfeedbackgruppen ausgefüllt hatte. Das Modell kann keine vollständig auf Englisch verfassten Eingabeaufforderungen verarbeiten, aber Sie können dies umgehen, indem Sie entweder die gewünschte Phrase ins Chinesische übersetzen oder ein oder zwei chinesische Wörter hinzufügen.

Also, das Wichtigste zuerst. Hier sind ein paar Ergebnisse, die ich mit Kling generiert habe, um Ihnen zu zeigen, wie es ist. Erinnern Sie sich an Soras beeindruckendes Demo-Video von Tokios Straßenszenen oder die Katze, die durch einen Garten huscht? Hier sind Klings Aufnahmen:

Erinnern Sie sich an das Bild des Astronauten auf dem Pferd von Dall-E? Ich habe Kling gebeten, auch eine Videoversion zu erstellen.

Hier gibt es ein paar Dinge, die Lob verdienen. Keines dieser Videos weicht groß von der Aufforderung ab, und die Physik scheint zu stimmen – das Schwenken der Kamera, die wehenden Blätter und die Art, wie sich Pferd und Astronaut drehen und die Erde hinter ihnen zeigen. Der Generierungsprozess dauerte für jedes von ihnen etwa drei Minuten. Nicht der schnellste, aber völlig akzeptabel.

Es gibt aber auch offensichtliche Mängel. Die Videos sind zwar im 720p-Format, wirken aber verschwommen und körnig; manchmal ignoriert Kling eine wichtige Aufforderung in der Eingabeaufforderung; und am wichtigsten ist, dass alle jetzt generierten Videos auf fünf Sekunden begrenzt sind, was sie weit weniger dynamisch oder komplex macht.

Allerdings ist es nicht wirklich fair, diese Ergebnisse mit Dingen wie den Demos von Sora zu vergleichen, die von OpenAI handverlesen für die Veröffentlichung ausgewählt wurden und wahrscheinlich überdurchschnittliche Ergebnisse aufweisen. Diese Kling-Videos stammen aus meinen ersten Versuchen mit jeder Eingabeaufforderung und ich habe selten Eingabeaufforderungs-Schlüsselwörter wie „8k, Fotorealismus“ eingefügt, um die Ergebnisse zu optimieren.

source site

Leave a Reply