Augmented-Reality-Brillen sind eine neue Möglichkeit, die Welt zu hören

Als ich in den 1990er Jahren als gehörloses Kind aufwuchs, hatte ich zwei wiederkehrende Fantasien. Einer davon war, dass mehr hörende Menschen die amerikanische Gebärdensprache lernen würden. Das andere war, dass eines Tages die ganze Welt mit Untertiteln versehen sein würde, genau wie Fernsehsendungen und Filme. Ich stellte mir vor, wie ich eine elegante Science-Fiction-Brille aufsetze, und voilà: Das Gewirr gesprochener Wörter um mich herum würde sich in wunderschönes, lesbares geschriebenes Englisch auflösen.

Die zweite Kindheitsträumerei kam mir kürzlich in den Sinn, als ich mich in einem ruhigen Atrium auf dem Campus der Harvard University mit Alex und Marilyn Westner, den Mitbegründern des Bostoner Start-up-Unternehmens Xander, zusammensetzte, die mich zu einem Gespräch eingeladen hatten bei einem Kaffee, nachdem ich in einem Zeitungsartikel ein Zitat über die Augmented-Reality-Live-Untertitelbrille ihres Unternehmens gesehen hatte. Sie schoben einen sperrigen Prototyp über den Tisch und ich setzte mir die Brille auf. Sofort rollten geschriebene Wörter über eine durchsichtige digitale Box über meinem rechten Auge.

“Wie fühlt sich das an?” Ich habe die Untertitel direkt gesehen, nachdem Alex sie ausgesprochen hatte. Da ich mir immer Videos mit Untertiteln angesehen habe, war mein erster Gedanke, dass er aus einem Fernsehbildschirm gestiegen ist, um mit mir zu sprechen.

Wow, Dachte ich und spürte, wie sich unser Gespräch vom Lippenlesen – das, wie ich an anderer Stelle erklärt habe, nicht wirklich „Lesen“ ist – hin zu etwas verlagerte, das dem eigentlichen Lesen näherkam.

Obwohl dies das erste Mal war, dass ich Brillen mit Untertiteln ausprobiert habe – eine noch junge Form der Augmented-Reality-Technologie, um deren Entwicklung Unternehmen wie XRAI Glass und Google ebenfalls konkurrieren – beobachte ich schon seit Jahren die Möglichkeiten einer Brille mit Live-Untertiteln Die Welt hat Fortschritte gemacht. Schauen Sie sich um und Sie werden überall automatisierte Untertitel finden – auf YouTube und Instagram Reels, auf Google Meet und Zoom und FaceTime. Wie andere KI-generierte Tools sind diese Untertitel nicht perfekt und kein Allheilmittel für die Barrierefreiheit, aber für einige Anwendungen haben sie sich als überraschend gut erwiesen. In meiner Diskussion mit den Xander-Gründern haben wir uns hauptsächlich auf die Funktionsweise der Brille konzentriert – ein konzentriertes Gespräch ist normalerweise einfacher zu verfolgen –, aber Live-Untertitel erleichterten das Rätselraten beim Chatten mit meinen beiden hörenden Kaffeebegleitern.

Jeder, der im letzten Jahrzehnt automatisierte Untertitel aktiviert hat, weiß, dass Genauigkeit nicht immer seine Stärke ist. Ich habe Zoom-Vorlesungen besucht und undurchsichtige Textwände ohne Zeichensetzung und Fachvokabular gesehen, die bis zur Unkenntlichkeit abgeschlachtet wurden. Ich bin ohne Dolmetscher in die Kirche gegangen, wo ich meinen Blick auf eine Live-Untertitelungs-App gerichtet habe, die mich in unzusammenhängende Fragen über die „Zyanidwüste“ (kein Wunder, dass diese Israeliten so unglücklich waren) oder über Abraham, der sein „Telefon“ benutzt, stürzte “ (anstelle seines Sohnes?) als Opfer für den „Clearview Lord“ (wer auch immer das sein mag). Nachdem diese Predigten zu Ende waren, pochte mein Kopf. Ich konnte nicht umhin, an all die Menschen zu denken, die nach dem Fall Babels zerstreut und in all ihre verschiedenen Sprachen verstreut wurden. Wie die Menschen der Antike müssen wir uns daran erinnern, dass technologische Innovationen uns nicht allein in den Himmel befördern können. Wir müssen immer noch entscheiden, wann und wie wir es nutzen.

Eine Zeit lang habe ich, wie Rikki Poynter und viele andere Gehörlosenbefürworter, automatische Untertitel mit #Craptions in Verbindung gebracht – also Untertiteln, die so schlecht waren, dass sie weniger wahrscheinlich eine verständliche Geschichte erzählten, als dass sie den Benutzer dazu brachten, Schwärme von Obszönitäten auszulösen. (Und das aus gutem Grund: Manchmal erscheinen nicht obszöne Dialoge auf dem Bildschirm als markierte Schimpfwörter.) Ich hatte immer die Möglichkeit, professionelle, von Menschen erstellte Echtzeitübersetzungsdienste für Kommunikationszugang für Schul- und Arbeitsveranstaltungen anzufordern, und jedes Mal zuckte ich zusammen Der naive Hörbegleiter erwähnte automatisch generierte Untertitel. Das war ein Zeichen dafür, dass sie nicht verstanden hatten, wie schlecht die Qualität dieser Untertitel war.

Als ich 2015 mit dem Graduiertenstudium begann, sah ich, wie sich eine akademische Administratorin vor einer großen Versammlung zu Recht entschuldigte, nachdem sie einen Fehler gemacht hatte Harry Potter Videoclip für uns während der Orientierung. Sie hatte vergessen zu prüfen, ob der Dialog für alle im Publikum zugänglich war, und hätte annehmen können, dass die automatischen YouTube-Untertitel genauso gut wären wie die Untertitel, die das Originalvideo begleiteten.

Das waren sie nicht. Harry, Ron und Hermine verfielen bald in solche Fluten von Flüchen und Unsinn, dass man hätte meinen können, sie seien verhext worden.

Während ich auf meinem Platz sank, brachen die hörenden Studenten wegen der verpfuschten Bildunterschriften in schallendes Gelächter aus. Man muss ihr zugute halten, dass der Administrator das Video umgehend gestoppt hat. Sie drückte mir und meinem ASL-Dolmetscher in der ersten Reihe ihr Bedauern aus. Dann tadelte sie die anderen: „Wie hättest du das gern?“ Das für Ihren Zugang?“

Im Raum wurde es still. Der Administrator hatte einen grundsätzlichen Mangel an kommunikativer Gerechtigkeit festgestellt. Zumindest ist es besser als nichts– Das sagten mir oft Hörer über automatische Untertitel, aber was sollte ich tun, außer mich mit Fetzen zufrieden zu geben? Auch ich fand einige der Fehler lustig, aber größtenteils hielt ich sie für Müll.

Zu Beginn der Pandemie begann sich mein Verhältnis zur automatischen Untertitelung jedoch zu verändern. Da ich zu Hause festsaß und mit körperlicher Isolation und den Masken zu kämpfen hatte, die das Lippenlesen unmöglich machten, seufzte ich, als einige hörende Freunde mir vorschlugen, Sprachtranskriptions-Apps und Videoanrufe mit automatischen Untertiteln auszuprobieren. Ich erinnere mich, dass ich mich zum ersten Mal zögernd bei Google Meet anmeldete, unsicher, ob ich so etwas wie meinen alten Traum von schönen geschriebenen Untertiteln sehen würde oder deren verstümmelten Verwandten.

Zwei meiner hörenden Freunde, die ein wenig, aber nicht viel gebärden, nahmen am Videochat teil. Einer sagte: „Hey, Rachel, es ist so schön, dich zu sehen.“

Die Überschrift lautete: „Hey, Rachel, es ist so schön, dich zu sehen.“

Wow.

Wir fuhren fort und waren erleichtert, die Gesichter des anderen wieder zu sehen. Die Bildunterschriften wiesen zwar noch einige Fehler auf, blieben aber weitgehend erhalten. Ich spürte, dass sich das Spiel gerade geändert hatte.

Während der Pandemie chattete ich wunderbar per Video mit gehörlosen und gebärdenden Freunden – Untertitel waren unnötig –, aber ich fühlte mich auch freier, an spontanen Chats mit nicht gebärdenden hörenden Menschen teilzunehmen. Automatische Untertitel wurden zu einer unerwarteten Lebensader. Ich habe sie für informelle Arbeiten und soziale Gespräche verwendet und festgestellt, dass sie in mehr Online-Inhalten mit größerer Genauigkeit angezeigt werden. Gleichzeitig begannen immer mehr hörende Menschen um mich herum, regelmäßig Untertitel für das Ansehen von Filmen, Fernsehsendungen und Videos zu verwenden. Dieses beschriftete Leben war plötzlich überall.

Gehörlose und behinderte Menschen waren schon immer hervorragende Life-Hacker, und ich habe gelernt, automatische Untertitel als alltägliches Kommunikations-Hacking-Tool zu nutzen. Ich liebe sie für kleinere Diskussionen, bei denen meine Online-Begleiter und ich den gemeinsamen Akt der Bedeutungsgestaltung genießen. Wir bleiben zur Klärung stehen. Wir gestikulieren oder tippen einander im Chatfeld zu. Die Sprachtranskriptionstechnologie hat immer noch Probleme mit Fachvokabular und bestimmten Stimmen, einschließlich meiner eigenen tauben Stimme – aber im besten Fall können die Untertitel bruchstückhaften Austausch in lebendige, kohärente und leicht lesbare Absätze umwandeln.

Eine qualitativ hochwertige automatische Untertitelung, so wundersam sie auch sein mag, schafft nicht automatisch Zugriff. Zum einen ziehen es nicht alle gehörlosen Menschen vor, Gespräche durch Untertitel zu begleiten. Für viele von uns ist die Kommunikation über ASL immer noch einfacher und ermöglicht eine weitaus größere Ausdrucksflüssigkeit. Und wenn die automatischen Untertitel in die weite und laute Welt hinausgetragen werden, bei größeren beruflichen Veranstaltungen oder Vorträgen oder bei Interaktionen mit mehreren Personen, können sie schnell prekär werden. Wir schalten die Live-Untertitel für Sie ein! Leute sagen hören. Aber Menschen, die sich zum Verständnis nicht auf diese Bildunterschriften verlassen, wissen möglicherweise nicht, wie oft sie einige von uns immer noch in der Zyanidwüste festsitzen lassen. Die Interpretation durch menschliche Fachleute ist keineswegs veraltet.

Als ich die Xander-Brille testen wollte, hatte ich Zweifel, wie gut sie funktionieren würde. Ich habe mich auch gefragt, wie ich ein solches Gerät in meinem eigenen vielschichtigen Kommunikationsleben nutzen könnte. Forschungen von Xander, Google und anderen Unternehmen laden uns ein, darüber nachzudenken, wie „Barrierefreiheits“-Technologie oft Einzug in den Mainstream hält und diesen prägt: Eine umfassendere Verwendung von Bildunterschriften und Hilfstexten könnte nicht nur schwerhörigen und schwerhörigen Menschen zugute kommen, sondern auch Jeder andere, der die multisensorischen Freuden genießt, gesprochene Dialoge zu sehen (anstatt nur zuzuhören).

Mein erstes Gespräch mit einer beschrifteten Brille fühlte sich an wie etwas aus einem Film. Ich schüttelte immer wieder verwundert den Kopf über die Bildunterschriften, die vor mir in der Luft schwebten. “Das ist So cool“, sagte ich immer wieder. Andere gehörlose und schwerhörige Benutzer haben eine ähnliche Begeisterung zum Ausdruck gebracht und festgestellt, dass sich das Lesen von Gesprächen mit Untertiteln intuitiver und angenehmer anfühlte, als sich mit dem Lippenlesen abzumühen oder sich anzustrengen, durch Hörgeräte verstümmelte Geräusche zu hören.

Doch die Verwendung einer beschrifteten Brille erforderte eigene aktive Überlegungen. Jedes Mal, wenn ich nickte, sprangen die Bildunterschriften umher. Meine Sicht wurde etwas verschwommen. Ich hielt meinen Kopf absurd still und versuchte, meine Netzhaut so anzupassen, dass sie gleichzeitig die Bildunterschriften und meine Begleiter wahrnahm. Die Xander-Gründer fragten mich, wie klar und nützlich die Bildunterschriften seien, wo sie auf den Linsen erscheinen und wie groß sie seien. Mir war sehr bewusst, wie viel Übung ich noch brauchte, und dass das Leben, das uns erwartet, vielleicht nie so einfach sein wird wie das Ein- und Ausschalten von etwas mit einem Gerät.

Darüber hinaus war unsere unmittelbare Umgebung für die Verwendung der beschrifteten Gläser günstiger als dies in einem typischen Café oder Klassenzimmer der Fall wäre. Wir hatten uns einen ruhigen Ort mit wenig Hintergrundgeräuschen und wenig Ablenkungen ausgesucht. Vielleicht wird eine verbesserte Sprachverarbeitungssoftware eines Tages in der Lage sein, überlappendes Geschwätz zu beseitigen. Oder vielleicht, genau wie in meiner anderen Hauptfantasie meiner Kindheit, lernen mehr Menschen ASL und wir müssen es nicht – aber in der Zwischenzeit habe ich festgestellt, wie sich unsere Gesprächssituation auf die Art und Weise auswirkte, wie wir kommunizierten. Weil es immer so ist. Ich hatte mich für den Nachmittag mental auf Englisch eingestellt und wusste auch, dass die Verwendung dieser Brille von meiner Fähigkeit und meinem Willen abhing, so etwas zu tun. Ich habe es genossen, mit den Xander-Mitbegründern über Sprache, ASL, Tontechnik und die Freuden und Komplikationen der Sprache zu sprechen, aber ich war auch dankbar, dass ich mich später am Wochenende in Gebärdentreffen mit gehörlosen Freunden ohne Brille und dem Vorlesen von Untertiteln und Texten stürzen konnte -Scrollen. Beide Arten von Gesprächen fühlten sich sinnvoll an, allerdings aus unterschiedlichen Gründen.

Unsere elegante Science-Fiction-Show bietet keine Allheilmittel, auch wenn technologische Fortschritte wie automatisierte Untertitel vielversprechend für die Überbrückung unserer physiologischen Unterschiede sind. Um diese Formen der Technologie gut nutzen zu können, müssen wir auch darüber nachdenken, wie kommunikative Gerechtigkeit unter verschiedenen Umständen aussehen kann. Ich träume immer noch von schönen geschriebenen Bildunterschriften, aber ich glaube auch, dass sie Teil von etwas viel Größerem sein können: einer sozialen Welt, die stärker auf das zutiefst menschliche Bedürfnis abgestimmt ist, Teil des Gesprächs zu sein, und sich der Vielfalt der Art und Weise bewusster ist, auf die jeder von ihnen reagiert Wir können die sprachliche Bedeutung aufdecken.

source site

Leave a Reply