Das Sprachklonungs-KI-Modell von OpenAI benötigt nur ein 15-sekündiges Beispiel, um zu funktionieren

OpenAI bietet eingeschränkten Zugriff auf eine von ihm entwickelte Text-to-Voice-Generierungsplattform namens Voice Engine, die eine synthetische Stimme basierend auf einem 15-sekündigen Clip der Stimme einer Person erstellen kann. Die KI-generierte Stimme kann auf Befehl Textansagen in der gleichen Sprache wie der Sprecher oder in mehreren anderen Sprachen vorlesen. „Diese kleinen Einsätze tragen dazu bei, unseren Ansatz, unsere Sicherheitsvorkehrungen und unsere Überlegungen darüber zu prägen, wie Voice Engine in verschiedenen Branchen zum Guten eingesetzt werden könnte“, sagte OpenAI in seinem Blogbeitrag.

Zu den Unternehmen mit Zugang gehören das Bildungstechnologieunternehmen Age of Learning, die visuelle Storytelling-Plattform HeyGen, der Frontline-Gesundheitssoftwarehersteller Dimagi, der Entwickler von KI-Kommunikations-Apps Livox und das Gesundheitssystem Lifespan.

In diesen von OpenAI veröffentlichten Beispielen können Sie hören, was Age of Learning mit der Technologie gemacht hat, um vorgefertigte Voice-Over-Inhalte zu generieren und den Schülern „personalisierte Echtzeit-Antworten“ vorzulesen, die von GPT-4 verfasst wurden .

Zuerst das Referenzaudio auf Englisch:

Und hier sind drei KI-generierte Audioclips, die auf diesem Beispiel basieren:

OpenAI sagte, es habe Ende 2022 mit der Entwicklung der Voice Engine begonnen und die Technologie habe bereits voreingestellte Stimmen für die Text-to-Speech-API und die Vorlesefunktion von ChatGPT bereitgestellt. Im Interview mit TechCrunchJeff Harris, Mitglied des OpenAI-Produktteams für Voice Engine, sagte, das Modell sei auf „einer Mischung aus lizenzierten und öffentlich verfügbaren Daten“ trainiert worden. OpenAI teilte der Veröffentlichung mit, dass das Modell nur etwa 10 Entwicklern zur Verfügung stehen werde.

Die KI-Text-zu-Audio-Generierung ist ein Bereich der generativen KI, der sich ständig weiterentwickelt. Während sich die meisten auf instrumentale oder natürliche Klänge konzentrieren, haben sich weniger auf die Stimmerzeugung konzentriert, was teilweise auf die von OpenAI zitierten Fragen zurückzuführen ist. Zu den Namen in diesem Bereich gehören Unternehmen wie Podcastle und ElevenLabs, die Technologien und Tools zum Klonen von KI-Stimmen anbieten Vergecast letztes Jahr erkundet.

Laut OpenAI haben sich seine Partner bereit erklärt, sich an die Nutzungsrichtlinien zu halten, die besagen, dass sie die Sprachgenerierung nicht nutzen werden, um sich ohne deren Zustimmung als Personen oder Organisationen auszugeben. Es erfordert außerdem, dass die Partner die „ausdrückliche und informierte Zustimmung“ des ursprünglichen Sprechers einholen, nicht Möglichkeiten für einzelne Benutzer entwickeln, ihre eigenen Stimmen zu erstellen, und den Zuhörern offenlegen, dass die Stimmen von der KI generiert werden. OpenAI hat den Audioclips außerdem Wasserzeichen hinzugefügt, um deren Herkunft zu verfolgen und aktiv zu überwachen, wie das Audio verwendet wird.

OpenAI schlug mehrere Schritte vor, von denen es glaubt, dass sie die Risiken im Zusammenhang mit Tools wie diesen begrenzen könnten, darunter die schrittweise Abschaffung der sprachbasierten Authentifizierung für den Zugriff auf Bankkonten, Richtlinien zum Schutz der Verwendung der Stimmen von Menschen in der KI, eine bessere Aufklärung über KI-Deepfakes und die Entwicklung von Trackingsystemen von KI-Inhalten.

source site

Leave a Reply