Die Stimme eines 21-Jährigen, dessen Sprache durch einen Tumor beeinträchtigt war, wurde durch KI nachgebildet

  • Lexi Bogan, 21, verlor letzten Sommer ihre Stimme, nachdem Ärzte einen lebensbedrohlichen Tumor entfernt hatten, der sich in der Nähe ihres Gehirns festgesetzt hatte.
  • Im April erlangte sie ihre Stimme durch einen KI-generierten Klon zurück, der auf einer 15-sekündigen Aufnahme ihrer Teenagerstimme trainiert wurde.
  • Bogan und ihr medizinisches Team glauben, dass es wertvolle medizinische Anwendungen für Menschen mit Sprachbehinderungen oder -verlusten hat.

Die Stimme, die Alexis „Lexi“ Bogan vor dem letzten Sommer hatte, war überschwänglich.

Sie liebte es, im Auto Balladen von Taylor Swift und Zach Bryan zu singen. Sie lachte die ganze Zeit – selbst während sie sich schlecht benehmende Kinder im Vorschulalter zusammenbrachte oder mit Freunden an einer Feuerstelle im Hinterhof über Politik debattierte. In der High School war sie Sopranistin im Chor.

Dann war diese Stimme verschwunden.

KÜNSTLICHE INTELLIGENZ HILFT, DEN LANGFRISTIGEN PFLEGEBEDARF SENIOREN VORZUHERSAGEN: „KRITISCHE NÄCHSTE SCHRITTE“

Im August entfernten Ärzte einen lebensbedrohlichen Tumor, der sich in der Nähe ihres Gehirns festgesetzt hatte. Als der Atemschlauch einen Monat später herauskam, hatte Bogan Schwierigkeiten beim Schlucken und musste sich anstrengen, um ihren Eltern „Hallo“ zu sagen. Monatelange Rehabilitation half ihr bei der Genesung, aber ihre Sprache ist immer noch beeinträchtigt. Freunde, Fremde und ihre eigenen Familienangehörigen haben Schwierigkeiten zu verstehen, was sie ihnen sagen möchte.

Alexis Bogan, dessen Sprache durch einen Gehirntumor beeinträchtigt war, verwendet eine KI-gestützte Smartphone-App, um am 29. April 2024 in Lincoln, Rhode Island, bei einem Drive-in bei Starbucks eine hörbare Getränkebestellung aufzugeben. Die App wandelt ihre eingegebenen Eingaben in eine mündliche Nachricht um, die mit ihrer Originalstimme erstellt wird. (AP Photo/Steven Senne)

Im April bekam die 21-Jährige ihre alte Stimme zurück. Nicht die echte, sondern ein von künstlicher Intelligenz generierter Sprachklon, den sie über eine Telefon-App aufrufen kann. Ihre synthetische, aber bemerkenswert real klingende KI-Stimme wurde mit einer 15-Sekunden-Zeitkapsel ihrer Teenagerstimme trainiert – die aus einem Kochdemonstrationsvideo stammt, das sie für ein High-School-Projekt aufgenommen hat – und kann jetzt fast alles sagen, was sie will.

Sie tippt ein paar Wörter oder Sätze in ihr Handy ein und die App liest sie sofort vor.

„Hallo, kann ich bitte einen großen, mit braunem Zucker geeisten Hafermilch-Shake-Espresso bekommen“, sagte Bogans KI-Stimme, als sie bei einer Starbucks-Durchfahrtsstraße das Telefon aus dem Fenster ihres Autos hielt.

NEUE KI-WERKZEUGE KÖNNEN ÄRZTEN HELFEN, Notizen zu machen und PATIENTEN NACHRICHTEN ZU BENACHRICHTIGEN, ABER SIE MACHEN IMMER FEHLER

Experten warnen davor, dass die sich rasch verbessernde KI-Technologie zum Klonen von Stimmen Telefonbetrug verstärken, demokratische Wahlen stören und die Würde lebender oder toter Menschen verletzen kann, die nie zugestimmt haben, dass ihre Stimme nachgebildet wird, um Dinge zu sagen, die sie nie gesprochen haben.

Es wurde verwendet, um Deepfake-Robocalls an Wähler in New Hampshire zu senden, die Präsident Joe Biden nachahmen. In Maryland haben die Behörden kürzlich einen Sportdirektor einer High School angeklagt, mithilfe von KI einen gefälschten Audioclip erstellt zu haben, in dem der Schulleiter rassistische Äußerungen macht.

Aber Bogan und ein Ärzteteam der Lifespan-Krankenhausgruppe in Rhode Island glauben, dass sie eine Verwendung gefunden haben, die die Risiken rechtfertigt. Bogan ist eine der ersten Menschen – die einzige mit dieser Erkrankung –, die mit der neuen Voice Engine von OpenAI eine verlorene Stimme wiederherstellen konnte. Einige andere KI-Anbieter, wie zum Beispiel das Startup ElevenLabs, haben ähnliche Technologie für Menschen mit Sprachbehinderungen und Sprachverlust getestet – darunter eine Anwältin, die jetzt ihren Stimmklon im Gerichtssaal verwendet.

„Wir hoffen, dass Lexi bei der Weiterentwicklung der Technologie eine Vorreiterrolle übernehmen wird“, sagte Dr. Rohaid Ali, Assistenzarzt für Neurochirurgie an der medizinischen Fakultät der Brown University und am Rhode Island Hospital. Millionen von Menschen mit schwächenden Schlaganfällen, Kehlkopfkrebs oder neurogenerativen Erkrankungen könnten davon profitieren, sagte er.

„Wir sollten uns der Risiken bewusst sein, aber wir dürfen den Patienten und das soziale Wohl nicht vergessen“, sagte Dr. Fatima Mirza, eine weitere Assistenzärztin, die an dem Pilotprojekt arbeitet. „Wir können dabei helfen, Lexi ihre wahre Stimme zurückzugeben, und sie ist in der Lage, in einer Sprache zu sprechen, die ihr selbst am treuesten entspricht.“

Mirza und Ali, die verheiratet sind, erregten die Aufmerksamkeit des ChatGPT-Herstellers OpenAI aufgrund ihres früheren Forschungsprojekts bei Lifespan, bei dem der KI-Chatbot zur Vereinfachung medizinischer Einwilligungsformulare für Patienten eingesetzt wurde. Das Unternehmen aus San Francisco meldete sich Anfang des Jahres auf der Suche nach vielversprechenden medizinischen Anwendungen für seinen neuen KI-Sprachgenerator.

Bogan erholte sich immer noch langsam von der Operation. Die Krankheit begann letzten Sommer mit Kopfschmerzen, verschwommenem Sehen und einem schlaffen Gesicht und beunruhigte die Ärzte des Hasbro Children’s Hospital in Providence. Sie entdeckten einen Gefäßtumor in der Größe eines Golfballs, der auf ihren Hirnstamm drückte und sich in Blutgefäßen und Hirnnerven verfing.

„Es war ein Kampf, die Blutung unter Kontrolle zu bekommen und den Tumor zu entfernen“, sagte die pädiatrische Neurochirurgin Dr. Konstantina Svokos.

Die zehnstündige Dauer der Operation in Verbindung mit der Lage und dem Schweregrad des Tumors habe Bogans Zungenmuskulatur und Stimmbänder geschädigt und ihre Fähigkeit zum Essen und Sprechen beeinträchtigt, sagte Svokos.

„Es ist fast so, als wäre mir ein Teil meiner Identität genommen worden, als ich meine Stimme verloren habe“, sagte Bogan.

Die Ernährungssonde kam dieses Jahr heraus. Die Logopädie geht weiter und ermöglicht es ihr, in einem ruhigen Raum verständlich zu sprechen, aber ohne Anzeichen wird sie die volle Klarheit ihrer natürlichen Stimme wiedererlangen.

„Irgendwann begann ich zu vergessen, wie ich klang“, sagte Bogan. „Ich habe mich so daran gewöhnt, wie ich jetzt klinge.“

Immer wenn das Telefon im Haus der Familie im Providence-Vorort North Smithfield klingelte, reichte sie es ihrer Mutter, damit diese ihre Anrufe entgegennahm. Sie hatte das Gefühl, ihre Freunde zu belasten, wenn sie in ein lautes Restaurant gingen. Ihr Vater, der schwerhörig ist, hatte Mühe, sie zu verstehen.

Zurück im Krankenhaus suchten die Ärzte nach einem Pilotpatienten, um mit der OpenAI-Technologie zu experimentieren.

„Die erste Person, die Dr. Svokos in den Sinn kam, war Lexi“, sagte Ali. „Wir wandten uns an Lexi, um zu sehen, ob sie Interesse hätte, wussten aber nicht, wie sie darauf reagieren würde. Sie war bereit, es auszuprobieren und zu sehen, wie es funktionieren würde.“

Bogan musste einige Jahre zurückgehen, um eine geeignete Aufnahme ihrer Stimme zu finden, um das KI-System darauf zu „trainieren“, wie sie sprach. Es war ein Video, in dem sie erklärte, wie man einen Nudelsalat zubereitet.

Ihre Ärzte haben dem KI-System absichtlich nur einen 15-sekündigen Clip zugeführt. Kochgeräusche machen andere Teile des Videos unvollkommen. Es war auch alles, was OpenAI brauchte – eine Verbesserung gegenüber der vorherigen Technologie, die viel längere Proben erforderte.

Sie wussten auch, dass es für zukünftige Patienten, die im Internet keine Spur von ihrer Stimme haben, von entscheidender Bedeutung sein könnte, aus 15 Sekunden etwas Nützliches zu machen. Möglicherweise muss eine kurze Sprachnachricht für einen Verwandten ausreichen.

Als sie es zum ersten Mal testeten, waren alle von der Qualität des Sprachklons verblüfft. Gelegentliche Störungen – ein falsch ausgesprochenes Wort, eine fehlende Intonation – waren meist nicht wahrnehmbar. Im April statteten Ärzte Bogan mit einer maßgeschneiderten Telefon-App aus, die nur sie nutzen kann.

„Ich werde jedes Mal so emotional, wenn ich ihre Stimme höre“, sagte ihre Mutter Pamela Bogan mit Tränen in den Augen.

„Ich finde es großartig, dass ich diesen Sound wieder haben kann“, fügte Lexi Bogan hinzu und sagte, es habe „mein Selbstvertrauen wieder einigermaßen gestärkt, das es war, bevor das alles passierte.“

Mittlerweile nutzt sie die App etwa 40 Mal am Tag und sendet Feedback, von dem sie hofft, dass es künftigen Patienten hilft. Eines ihrer ersten Experimente bestand darin, mit den Kindern der Vorschule zu sprechen, wo sie als Lehrassistentin arbeitet. Sie tippte „ha ha ha ha“ ein und erwartete eine Roboterantwort. Zu ihrer Überraschung klang es wie ihr altes Lachen.

Sie hat es bei Target und Marshall verwendet, um zu fragen, wo Gegenstände zu finden sind. Es hat ihr geholfen, wieder Kontakt zu ihrem Vater aufzunehmen. Und es hat ihr die Bestellung von Fast Food erleichtert.

Bogans Ärzte haben damit begonnen, die Stimmen anderer williger Patienten aus Rhode Island zu klonen und hoffen, die Technologie in Krankenhäuser auf der ganzen Welt bringen zu können. OpenAI gab an, bei der Ausweitung der Nutzung der Voice Engine, die noch nicht öffentlich verfügbar ist, vorsichtig vorzugehen.

Eine Reihe kleinerer KI-Startups verkaufen bereits Voice-Cloning-Dienste an Unterhaltungsstudios oder machen sie breiter verfügbar. Die meisten Anbieter von Sprachgeneratoren geben an, dass sie Identitätsdiebstahl oder Missbrauch verbieten, unterscheiden sich jedoch in der Art und Weise, wie sie ihre Nutzungsbedingungen durchsetzen.

„Wir möchten sicherstellen, dass jeder, dessen Stimme im Dienst verwendet wird, fortlaufend zustimmt“, sagte Jeff Harris, OpenAIs Produktleiter. „Wir wollen sicherstellen, dass es nicht in politischen Kontexten verwendet wird. Deshalb haben wir einen Ansatz gewählt, der die Weitergabe der Technologie an wen sehr begrenzt.“

Harris sagte, der nächste Schritt von OpenAI bestehe darin, ein sicheres „Sprachauthentifizierungs“-Tool zu entwickeln, damit Benutzer nur ihre eigene Stimme reproduzieren können. Das könnte „einschränkend für eine Patientin wie Lexi sein, die einen plötzlichen Verlust ihrer Sprachfähigkeit hatte“, sagte er. „Deshalb glauben wir, dass wir vertrauensvolle Beziehungen, insbesondere zu medizinischen Anbietern, benötigen, um einen etwas uneingeschränkteren Zugang zur Technologie zu ermöglichen.“

KLICKEN SIE HIER, UM DIE FOX NEWS-APP ZU ERHALTEN

Bogan hat ihre Ärzte beeindruckt, indem sie sich darauf konzentrierte, darüber nachzudenken, wie die Technologie anderen mit ähnlichen oder schwerwiegenderen Sprachbehinderungen helfen könnte.

„Sie hat während des gesamten Prozesses unter anderem darüber nachgedacht, wie man dies optimieren und ändern kann“, sagte Mirza. „Sie war eine große Inspiration für uns.“

Während sie vorerst mit ihrem Telefon herumspielen muss, um die Sprachmaschine zum Sprechen zu bringen, stellt sich Bogan eine KI-Sprachmaschine vor, die ältere Mittel zur Sprachwiederherstellung – wie den roboterhaft klingenden Elektrolarynx oder eine Stimmprothese – durch die Verschmelzung mit dem menschlichen Körper verbessert oder Wörter in Echtzeit übersetzen.

Sie ist sich weniger sicher, was passieren wird, wenn sie älter wird und ihre KI-Stimme immer noch so klingt wie als Teenager. Vielleicht könnte die Technologie ihre KI-Stimme „altern“ lassen, sagte sie.

„Auch wenn ich meine Stimme noch nicht ganz zurück habe, habe ich etwas, das mir hilft, meine Stimme wiederzufinden“, sagte sie.

source site

Leave a Reply