Die neue KI von Google kann einen Songausschnitt hören – und dann weiterspielen

Ein neues KI-System kann natürlich klingende Sprache und Musik erzeugen, nachdem es mit ein paar Sekunden Audio aufgefordert wurde.

AudioLM, das von Google-Forschern entwickelt wurde, erzeugt Audio, das zum Stil der Aufforderung passt, einschließlich komplexer Klänge wie Klaviermusik oder sprechender Personen, und zwar auf eine Weise, die von der Originalaufnahme kaum zu unterscheiden ist. Die Technik ist vielversprechend, um den Prozess des Trainings der KI zur Audiogenerierung zu beschleunigen, und sie könnte schließlich zur automatischen Generierung von Musik zur Begleitung von Videos verwendet werden.

(Hier können Sie sich alle Beispiele anhören.)

KI-generiertes Audio ist alltäglich: Stimmen in Heimassistenten wie Alexa verwenden die Verarbeitung natürlicher Sprache. KI-Musiksysteme wie die Jukebox von OpenAI haben bereits beeindruckende Ergebnisse erzielt, aber die meisten bestehenden Techniken erfordern Menschen, die Transkriptionen erstellen und textbasierte Trainingsdaten kennzeichnen, was viel Zeit und menschliche Arbeit erfordert. Jukebox verwendet beispielsweise textbasierte Daten, um Liedtexte zu generieren.

AudioLM, das letzten Monat in einem nicht von Experten begutachteten Artikel beschrieben wurde, ist anders: Es erfordert keine Transkription oder Kennzeichnung. Stattdessen werden Klangdatenbanken in das Programm eingespeist und die Audiodateien mithilfe von maschinellem Lernen zu Klangschnipseln, sogenannten „Tokens“, komprimiert, ohne dass zu viele Informationen verloren gehen. Diese tokenisierten Trainingsdaten werden dann in ein maschinelles Lernmodell eingespeist, das die Verarbeitung natürlicher Sprache verwendet, um die Muster des Tons zu lernen.

Um das Audio zu erzeugen, werden einige Sekunden Ton in AudioLM eingespeist, das dann vorhersagt, was als nächstes kommt. Der Prozess ähnelt der Art und Weise, wie Sprachmodelle wie GPT-3 vorhersagen, welche Sätze und Wörter typischerweise aufeinander folgen.

Die vom Team veröffentlichten Audioclips klingen ziemlich natürlich. Insbesondere mit AudioLM erzeugte Klaviermusik klingt flüssiger als Klaviermusik, die mit bestehenden KI-Techniken erzeugt wurde, was dazu neigt, chaotisch zu klingen.

Laut Roger Dannenberg, der computergenerierte Musik an der Carnegie Mellon University erforscht, hat AudioLM bereits eine viel bessere Klangqualität als frühere Musikerzeugungsprogramme. Insbesondere sei AudioLM überraschend gut darin, einige der sich wiederholenden Muster nachzubilden, die menschengemachter Musik innewohnen. Um realistische Klaviermusik zu erzeugen, muss AudioLM viele der subtilen Vibrationen erfassen, die in jeder Note enthalten sind, wenn Klaviertasten angeschlagen werden. Die Musik muss auch ihre Rhythmen und Harmonien über einen längeren Zeitraum aufrechterhalten.

„Das ist wirklich beeindruckend, zum Teil, weil es darauf hinweist, dass sie gewisse Strukturen auf mehreren Ebenen lernen“, sagt Dannenberg.

AudioLM beschränkt sich nicht nur auf Musik. Da es mit einer Bibliothek von Aufzeichnungen von Menschen gesprochener Sätze trainiert wurde, kann das System auch Sprache erzeugen, die im Akzent und in der Kadenz des ursprünglichen Sprechers fortgesetzt wird – obwohl diese Sätze an dieser Stelle immer noch wie Non-Sequiturs erscheinen können, die keine ergeben Sinn. AudioLM ist darauf trainiert, zu lernen, welche Arten von Tonschnipseln häufig zusammen vorkommen, und verwendet den umgekehrten Prozess, um Sätze zu erzeugen. Es hat auch den Vorteil, dass man die Pausen und Ausrufe lernen kann, die gesprochenen Sprachen eigen sind, aber nicht einfach in Text übersetzt werden können.

Rupal Patel, der Informations- und Sprachwissenschaft an der Northeastern University forscht, sagt, dass frühere Arbeiten mit KI zur Audiogenerierung diese Nuancen nur erfassen konnten, wenn sie explizit in Trainingsdaten kommentiert wurden. Im Gegensatz dazu lernt AudioLM diese Eigenschaften automatisch aus den Eingabedaten, was den realistischen Effekt noch verstärkt.

„Es gibt vieles, was wir sprachliche Informationen nennen könnten, die nicht in den Worten enthalten sind, die man ausspricht, aber es ist eine andere Art der Kommunikation, die auf der Art und Weise basiert, wie man Dinge sagt, um eine bestimmte Absicht oder ein bestimmtes Gefühl auszudrücken“, sagt Neil Zeghidour, a Mitbegründer von AudioLM. Zum Beispiel kann jemand lachen, nachdem er etwas gesagt hat, um anzuzeigen, dass es ein Witz war. „All das macht Sprache natürlich“, sagt er.

Schließlich könnte KI-generierte Musik verwendet werden, um natürlicher klingende Hintergrundgeräusche für Videos und Diashows bereitzustellen. Sprachgenerierungstechnologie, die natürlicher klingt, könnte dazu beitragen, Tools und Bots für den Internetzugang zu verbessern, die im Gesundheitswesen funktionieren, sagt Patel. Das Team hofft auch, anspruchsvollere Sounds zu kreieren, wie eine Band mit verschiedenen Instrumenten oder Sounds, die eine Aufnahme eines tropischen Regenwaldes nachahmen.

Die ethischen Implikationen der Technologie müssen jedoch berücksichtigt werden, sagt Patel. Insbesondere ist es wichtig festzustellen, ob die Musiker, die die als Trainingsdaten verwendeten Clips produzieren, eine Zuschreibung oder Tantiemen aus dem Endprodukt erhalten – ein Problem, das bei Text-zu-Bild-KIs aufgetreten ist. KI-generierte Sprache, die von der Realität nicht zu unterscheiden ist, könnte auch so überzeugend werden, dass sie die Verbreitung von Fehlinformationen erleichtert.

In dem Papier schreiben die Forscher, dass sie diese Probleme bereits in Betracht ziehen und daran arbeiten, diese Probleme zu mindern – zum Beispiel durch die Entwicklung von Techniken, um natürliche Geräusche von mit AudioLM erzeugten Geräuschen zu unterscheiden. Patel schlug auch vor, Audio-Wasserzeichen in KI-generierte Produkte aufzunehmen, um sie leichter von natürlichem Audio unterscheiden zu können.

source site

Leave a Reply