Kopfhörer mit Geräuschunterdrückung nutzen KI, um eine einzelne Stimme durchzulassen

Diese Komplexität ist ein Problem, wenn KI-Modelle in einem Kopfhörer mit begrenzter Rechenleistung und Akkulaufzeit in Echtzeit arbeiten müssen. Um diesen Einschränkungen gerecht zu werden, mussten die neuronalen Netze klein und energieeffizient sein. Deshalb verwendete das Team eine KI-Komprimierungstechnik namens Wissensdestillation. Das bedeutete, dass man ein riesiges KI-Modell, das auf Millionen von Stimmen trainiert wurde (den „Lehrer“), einem viel kleineren Modell (dem „Schüler“) beibringen musste, um dessen Verhalten und Leistung auf dem gleichen Niveau zu imitieren.

Anschließend wurde dem Schüler beigebracht, die Stimmmuster bestimmter Stimmen aus den Umgebungsgeräuschen zu extrahieren, die von Mikrofonen erfasst wurden, die an einem handelsüblichen Kopfhörer mit Geräuschunterdrückung angebracht waren.

Um das Target Speech Hearing-System zu aktivieren, hält der Träger mehrere Sekunden lang eine Taste am Kopfhörer gedrückt, während er der Person zugewandt ist, auf die er sich konzentrieren möchte. Während dieses „Anmeldevorgangs“ erfasst das System ein Audiobeispiel von beiden Kopfhörern und nutzt diese Aufnahme, um die Stimmeigenschaften des Sprechers zu extrahieren, selbst wenn sich andere Lautsprecher und Geräusche in der Nähe befinden.

Diese Eigenschaften werden in ein zweites neuronales Netzwerk eingespeist, das auf einem Mikrocontroller-Computer läuft, der über ein USB-Kabel mit den Kopfhörern verbunden ist. Dieses Netzwerk ist kontinuierlich in Betrieb, trennt die gewählte Stimme von denen anderer Personen und spielt sie dem Zuhörer wieder. Sobald das System einen Sprecher erfasst hat, priorisiert es weiterhin die Stimme dieser Person, selbst wenn sich der Träger abwendet. Je mehr Trainingsdaten das System durch die Konzentration auf die Stimme eines Sprechers erhält, desto besser kann es diese isolieren.

Derzeit kann das System nur einen Sprecher erfolgreich registrieren, dessen Stimme die einzige ist, die laut genug ist. Das Team möchte dafür sorgen, dass es auch dann funktioniert, wenn die lauteste Stimme in einer bestimmten Richtung nicht der Zielsprecher ist.

Es sei sehr schwierig, in einer lauten Umgebung eine einzelne Stimme hervorzuheben, sagt Sefik Emre Eskimez, ein leitender Forscher bei Microsoft, der sich mit Sprache und KI beschäftigt, aber nicht an der Forschung mitgearbeitet hat. „Ich weiß, dass Unternehmen das wollen“, sagt er. „Wenn sie es schaffen, eröffnen sich viele Anwendungsmöglichkeiten, insbesondere in einem Besprechungsszenario.“

Während die Forschung zur Sprachtrennung tendenziell eher theoretisch als praktisch ist, hat diese Arbeit eindeutige praktische Anwendungen, sagt Samuele Cornell, ein Forscher am Language Technologies Institute der Carnegie Mellon University, der nicht an der Forschung mitgearbeitet hat. „Ich denke, es ist ein Schritt in die richtige Richtung“, sagt Cornell. „Es ist ein Hauch frischer Luft.“

source site

Leave a Reply