Stable Diffusion 3 kommt, um den frühen Vorsprung in der KI-Bildgebung gegenüber Sora und Gemini zu festigen

Bildnachweis: Stabile Verbreitung

Stability AI hat Stable Diffusion 3 angekündigt, die neueste und leistungsstärkste Version des bildgenerierenden KI-Modells des Unternehmens. Obwohl nur wenige Details bekannt sind, handelt es sich eindeutig um einen Versuch, den Hype um die kürzlich angekündigten Konkurrenten von OpenAI und Google abzuwehren.

Wir werden das alles demnächst ausführlicher technisch aufschlüsseln, aber vorerst sollten Sie wissen, dass Stable Diffusion 3 (SD3) auf einer neuen Architektur basiert und auf einer Vielzahl von Hardware funktioniert (obwohl Sie immer noch etwas Robustes benötigen). . Es ist noch nicht erschienen, aber Sie können sich hier für die Warteliste anmelden.

SD3 verwendet einen aktualisierten „Diffusionstransformator“, eine Technik, die 2022 eingeführt, aber 2023 überarbeitet wurde und jetzt Skalierbarkeit erreicht. Sora, der beeindruckende Videogenerator von OpenAI, funktioniert offenbar nach ähnlichen Prinzipien (Will Peebles, Co-Autor des Artikels, war später Co-Leiter des Sora-Projekts). Es nutzt auch „Flow Matching“, eine weitere neue Technik, die die Qualität ebenfalls verbessert, ohne zu viel Overhead hinzuzufügen.

Die Modellsuite reicht von 800 Millionen Parametern (weniger als das häufig verwendete SD 1,5) bis zu 8 Milliarden Parametern (mehr als SD XL) und soll auf einer Vielzahl von Hardware ausgeführt werden. Sie möchten wahrscheinlich immer noch eine seriöse GPU und ein Setup, das für die Arbeit mit maschinellem Lernen gedacht ist, aber Sie sind nicht auf eine API beschränkt, wie Sie es im Allgemeinen bei OpenAI- und Google-Modellen tun. (Anthropic hat sich seinerseits nicht öffentlich auf die Bild- oder Videogenerierung konzentriert, daher ist es nicht wirklich Teil dieser Diskussion.)

Auf Diese Fähigkeiten sind noch theoretisch, aber es sieht so aus, als gäbe es kein technisches Hindernis dafür, sie in zukünftige Versionen aufzunehmen.

Es ist natürlich unmöglich, diese Modelle zu vergleichen, da keines wirklich veröffentlicht wurde und wir uns nur auf konkurrierende Behauptungen und ausgewählte Beispiele beschränken müssen. Aber Stable Diffusion hat einen entscheidenden Vorteil: seine Präsenz im Zeitgeist als das Modell der Wahl für jede Art von Bildgenerierung überall, mit wenigen intrinsischen Einschränkungen in Bezug auf Methode oder Inhalt. (Tatsächlich wird SD3 mit ziemlicher Sicherheit eine neue Ära KI-generierter Pornos einläuten, sobald die Sicherheitsmechanismen überwunden sind.)

Stable Diffusion scheint die generative White-Label-KI sein zu wollen, auf die Sie nicht verzichten können, und nicht die generative Boutique-KI, von der Sie nicht sicher sind, ob Sie sie brauchen. Zu diesem Zweck verbessert das Unternehmen auch seine Werkzeuge, um die Messlatte für die Nutzung zu senken, auch wenn diese Verbesserungen, wie auch beim Rest der Ankündigung, der Fantasie überlassen bleiben.

Interessanterweise hat das Unternehmen in seiner Ankündigung die Sicherheit in den Mittelpunkt gestellt und erklärt:

Wir haben angemessene Schritte unternommen und werden dies auch weiterhin tun, um den Missbrauch von Stable Diffusion 3 durch böswillige Akteure zu verhindern. Sicherheit beginnt, wenn wir mit dem Training unseres Modells beginnen, und setzt sich während des gesamten Testens, der Evaluierung und der Bereitstellung fort. In Vorbereitung auf diese frühe Vorschau haben wir zahlreiche Sicherheitsmaßnahmen eingeführt. Durch die kontinuierliche Zusammenarbeit mit Forschern, Experten und unserer Community gehen wir davon aus, dass wir im Vorfeld der Veröffentlichung des Modells mit Integrität weitere Innovationen vorantreiben können.

Was genau sind diese Schutzmaßnahmen? Zweifellos werden sie in der Vorschau etwas abgegrenzt, und dann wird die öffentliche Veröffentlichung weiter verfeinert oder zensiert, abhängig von Ihrer Sicht auf diese Dinge. Wir werden bald mehr wissen und uns in der Zwischenzeit mit der technischen Seite befassen, um die Theorie und Methoden dieser neuen Modellgeneration besser zu verstehen.



source site

Leave a Reply