KI kann endlich meinen Namen richtig sagen

Es ist nicht so schwer, meinen Namen auszusprechen, Saahil Desai. Saahil: reimt sich auf Sägewerk, oder zumindest kommt man damit zu 90 Prozent ans Ziel. Desai: Gefällt mir entscheiden mit dem letzten Stück abgehackt. Das ist es wirklich.

Meistens wird mein Name jedoch in einer Menagerie von Fauxpas und Patzern vernichtet. Am häufigsten ist Sa-Hackeist zumindest ein ehrlicher Versuch – im Gegensatz zu seinem mutierten Zwilling, einem einsilbigen Durcheinander, das so klingt Siegel. Andere widersetzen sich jeder möglichen Logik. Einmal las ein Studienkollege meinen Namen, hielt inne und sagte dann selbstbewusst: „Hallo, Seattle.“

Aber die falschen Aussprachen, die mich am meisten nerven, werden von keinem Menschen ausgesprochen. Sie kommen von Bots. Den ganzen Tag über liest Siri meine Textnachrichten über die AirPods vor, die ich in den Ohren stecke – und verstümmelt meinen Namen in Sa-Hul. Es schneidet besser ab als der KI-Dienst, den ich zum Transkribieren von Interviews verwende und der mich anhand einer Reihe von Namen identifiziert hat, die scheinbar aus einer gescheiterten britischen Boyband stammen (Nigel, Sal, Michael, Daniel, Scott Hill). Das Silicon Valley strebt danach, dass seine Produkte die Welt verändern, aber das bedeutet natürlich auch eine Namensänderung.

Zumindest dachte ich das. Hören Sie sich das an:

Saahil Desai · Elf Labore

Es handelt sich um eine KI-Stimme namens Adam von ElevenLabs, einem Start-up, das sich auf das Klonen von Stimmen spezialisiert hat. (Es ist so etwas wie das DALL-E von Audio.) Dieser Bot sagt nicht nur meinen Namen gut; Es sagt meinen Namen besser, als ich kann. Schließlich kommt Saahil aus dem Sanskrit, einer Sprache, die ich nicht spreche. Das Endergebnis ist ein Dopaminstoß der Vertrautheit, ein erstaunliches Gefühl, das dem technischen Äquivalent ähnelt, als würde man einen Souvenir-Schlüsselanhänger mit Ihrem Namen darauf finden.

Zusätzlich zu Chatbots, die Haiku schreiben können, und Artbots, die eine Pizza im Stil von Picasso rendern können, hat die generative KI-Revolution Voicebots hervorgebracht, die mir endlich einen Namen machen können. So wie ChatGPT aus Internetbeiträgen lernt, hat ElevenLabs seine Stimmen anhand einer riesigen Menge an Audioclips trainiert, um herauszufinden, wie man spricht, wie Menschen es tun – mindestens 500.000 Stunden, verglichen mit Dutzenden oder Hunderten Stunden Audio bei früheren Sprachmodellen. „Wir haben die letzten zwei Jahre damit verbracht, ein neues grundlegendes Sprachmodell zu entwickeln“, schrieb Mati Staniszewski, CEO von ElevenLabs, in einer E-Mail. „Das bedeutet, dass unser Modell kontextbewusst und sprachunabhängig ist und daher Nuancen wie Namen besser erfassen und die Betonung und Emotionen vermitteln kann, die die Texteingabe widerspiegeln.“ Die Daten, die Teil neuerer Voicebots sind, können eine beliebige Anzahl von Websites umfassen, die sich mit der Aussprache von Dingen befassen, und wenn jemand Ihren Namen in einem Hörbuch, einem Podcast oder einem YouTube-Video richtig ausgesprochen hat, ist dies bei neueren KI-Modellen möglicherweise nicht der Fall.

Unternehmen wie Amazon, Google, Meta und Microsoft entwickeln ebenfalls fortschrittlichere Voicebots – auch wenn es immer noch gemischte Ansichten gibt. Ich habe den gleichen Satz – „Komm schon, es ist nicht so schwer, Saahil Desai zu sagen“ – auf KI-Sprachprogrammen von jedem von ihnen getestet. Sie kamen alle mit Desai zurecht, aber ich wurde nicht mit einem Chor perfekter Aussprachen von Saahil begrüßt. Die Polly-Software von Amazon, vielleicht noch schlimmer als Siri, denkt, mein Name sei so etwas wie Saaaaal:

Saahil Desai · Amazon Polly

Sowohl Google Cloud als auch Microsoft Azure waren harmlos, aber nicht perfekt und verwandelten Saahil leicht in etwas erkennbar Fremdes. Nichts konnte ElevenLabs schlagen, aber Voicebox, ein unveröffentlichtes Tool von Meta, das das Unternehmen kürzlich als „Durchbruch in der generativen KI für Sprache“ angepriesen hat, kam dem sehr nahe:

Saahil Desai · Meta Voicebox

Computer können mittlerweile so viel mehr Namen sagen als nur meinen eigenen. „Dasselbe ist mir neulich aufgefallen, als mein Student und ich auf ElevenLabs eine Aufnahme von Anderson Cooper von CNN erstellt haben, in der es hieß: „Professor Hany Farid ist ein absoluter Vollidiot“ (das ist eine lange Geschichte)“, sagte Hany Farid, a Informatiker der UC Berkeley, schrieb in einer E-Mail. „Ich war überrascht, wie gut es meinen Namen aussprach. Mir ist auch aufgefallen, dass die Namen meiner nichtamerikanischen Schüler richtig ausgesprochen werden.“ Andere knifflige Namen, die ich getestet habe, schnitten ebenfalls gut ab: ElevenLabs hat Lupita Nyong’o und Timothée Chalamet getroffen, obwohl dadurch der Nachname des armen Pete Buttigieg in einen sehr unglücklichen Buttygig verwandelt wurde.

Dass KI-Stimmen nun ungewöhnliche Namen sagen können, ist keine Kleinigkeit. Sie stehen vor den gleichen Ausspracheproblemen, die viele Menschen ratlos machen; Namen wie Giannis Antetokounmpo halten sich nicht an die Regeln des Englischen, während selbst ein einfacherer Name mehrere Aussprachen haben kann (Andrea oder Undrea?) oder Schreibweisen (Michaela? Mikayla? Mikayla? Michela?). „Ein Name könnte uns immer noch nicht in den Sinn kommen, wenn die Farbe und Textur einer KI-Stimme mehr HAL 9000 als die eines Menschen klingt“, sagte Farid.

Frühere Generationen von Sprachassistenten – Siri, Alexa, Google Assistant, das GPS Ihres Autos – verfügten einfach nicht über genügend Informationen, um alle diese Schritte zu bewältigen. (In einigen Fällen können Sie diese Informationen selbst bereitstellen: Ein Sprecher von Apple sagte mir, dass Sie die phonetische Schreibweise eines Namens manuell in die Kontakte-App eingeben können, um zu optimieren, wie Siri ihn liest.) Im Laufe der Jahre hat diese Technologie „einen wirklichen Stillstand erreicht “, schrieb Farid. „Es war wirklich schwierig, durch dieses unheimliche Tal zu kommen, in dem es irgendwie menschlich, aber auch ein bisschen seltsam ist. Und dann schoss es einfach durch die Tür.“ Fortschritte bei „Deep-Learning“-Techniken, die vom menschlichen Gehirn inspiriert sind, können Muster in Tonhöhe, Rhythmus und Intonation leichter erkennen.

Das ist derzeit der seltsame Widerspruch der KI: Auch wenn diese Technologie anfällig für Vorurteile ist, die Benutzer entfremden können (Sprachassistenten identifizieren Wörter von schwarzen Sprechern häufiger falsch als von weißen Sprechern), kann sie auch dabei helfen, kleinere Gefühle der Entfremdung hervorzurufen, die aufsteigen. Ständig zu hören, wie Bots meinen Namen verpfuschen, ist eine digitale Demütigung, die mich daran erinnert, dass meine Geräte nicht für mich gemacht zu sein scheinen, obwohl Saahil Desai in Indien ein gebräuchlicher Name ist. Mein blaues iPhone 12 ist eine 6-Zoll-Platte, die mehr davon enthält Mich als alles andere in meinem Leben. Und dennoch bringt es das Grundlegendste an meiner Identität durcheinander.

Aber eine Welt, in der die Bots meinen und Ihren Namen verstehen und sprechen können, ist auch unheimlich. ElevenLabs ist die gleiche Technologie zum Klonen von Stimmen, mit der glaubwürdige Deepfakes erstellt wurden – von einer unhöflichen Taylor Swift oder von Joe Rogan und Ben Shapiro beim Debattieren Ratatouillevon Emma Watson, die einen Abschnitt von liest mein Kampf. Ein KI-Betrug, der vorgibt, jemand zu sein, den Sie kennen, ist weitaus glaubwürdiger, wenn die Stimme am anderen Ende Ihren Namen genauso sagen kann wie Ihre Verwandten.

Als klar war, dass ich ElevenLabs nicht überlisten konnte, gab ich meinen zweiten Vornamen ein: Abhijit. Heraus kam ein schreckliches Silbengewirr, das mich nie täuschen würde. Okay, gut: Ich gebe zu, es ist eigentlich ziemlich schwer, Saahil Abhijit Desai zu sagen.

source site

Leave a Reply