
Hintergrund
Ein Versprechen in Bildern: «Interstellar» kehrt zurück ins IMAX
von Luca Fontana
Stell dir vor, du bist taub. Mit anderen Gehörlosen kommunizierst du per Gebärdensprache, aber mit Hörenden? Da bleibt dir nur Lippenlesen oder Schreiben. Wäre es nicht toll, wenn du mit ihnen in deiner Sprache kommunizieren könntest? SwissTXT will mit neuen Technologien Untertitel und Gebärdensprachdolmetschen automatisieren.
Galahad betritt den Kingsman Meetingraum und wird von Arthur begrüsst. Er setzt sich an den ansonsten leeren Sitzungstisch. Die beiden setzen sich ihre AR-Brillen auf und sehen nun die weiteren Kingsman-Agenten als stereoskopischen Avatar.
Dieses Szene aus dem Film «Kingsman: The Secret Service» beschreibt, wie sich SwissTXT Gebärdensprachdolmetschen in Zukunft vorstellt. Durch Augmented Reality soll ein Abbild einer Person, in diesem Fall eines Dolmetschers, generiert werden, der in Echtzeit gesprochene Sprache in Gebärden übersetzt.
SwissTXT – das sind doch die mit der farbigen Pixelschrift auf schwarzem Hintergrund, die du durch Druck auf die Text-Taste deiner Fernbedienung siehst? Genau, aber eben nicht nur. Die 1983 gegründete SwissTXT AG ist eine Tochter der SRG. Das Unternehmen ist nebst diversen weiteren Diensten für Access Services zuständig.
«Wir haben uns vor 35 Jahren selbst verpflichtet, einen Untertitelungsdienst zu erbringen. Zu Beginn war dieser Auftrag simpel. Dann kam die UN-Behindertenrechtskonvention und die Anforderungen an Accessibility wurden grösser. Mit den technischen Möglichkeiten sind diese dann nochmals gewachsen», sagt Robin Ribback, Innovation Manager bei SwissTXT. So stellt SwissTXT heute nicht nur Untertitel zur Verfügung, sondern unter anderem auch Gebärdensprache und Audiodeskription. Menschen mit Sinnesbehinderungen sollen Zugang zu Information, Bildung und Kultur erhalten.
Die UN-Behindertenrechtskonvention bezieht sich aber nicht nur aufs Fernsehen, sondern auch auf weitere Bereiche wie Bildung, Anlässe, Unternehmen und Politik. «SwissTXT muss ein Ökosystem für den Zugang zu Information, Bildung und Kultur schaffen», so Robin Ribback. In Zusammenarbeit mit u.a. den Universitäten Zürich, St. Gallen, Lausanne und den Hochschulen in Winterthur, Bern und Olten können sich beispielsweise Menschen mit Hörbeeinträchtigung Vorlesungen von sogenannten Re-Speakern online in Echtzeit aufs Tablet sprechen lassen. So erhalten sie Zugang zu Bildung.
Wie wird gesprochene Sprache heute für Menschen mit Hörbeeinträchtigung übersetzt? Das funktioniert mit den Re-Speakern. Das lässt sich am Beispiel der Universität aufzeigen. Das Gesprochene einer Dozentin wird online einer Re-Speakerin übermittelt. Die kann sich irgendwo befinden. Ihre Aufgabe besteht darin, das Gesagte in Schriftsprache mit Interpunktion wiederzugeben. Eine automatische Spracherkennungssoftware verschriftlicht das Gesprochene der Re-Speakerin. Dieser Text wird online der Person mit Hörbeeinträchtigung übermittelt. Sie kann so der Dozentin durch Mitlesen folgen.
So funktioniert das Untertiteln heute. Das System wird jetzt optimiert. In einem zweiten Schritt soll der Re-Speaker in der Mitte des Übersetzungsprozesses durch eine automatische Spracherkennung ersetzt werden. Diese transformiert das gesprochene Wort bereits in einen Text. Dieser wird dann noch von einem Menschen optimiert. In Phase III fällt der Mensch komplett aus dem Prozess und nur eine KI macht die Übersetzung von gesprochener Sprache zu Text. Das soll aber nicht so wie bei Youtube funktionieren, wo einfach das gesprochene Wort für Wort wiedergegeben wird, sondern in sauberen Text.
«Für uns ist der kontinuierliche Verbesserungsprozess wichtig. Das entscheidende ist hierbei das Sammeln von Daten», sagt Robin Ribback. Diese sammelt SwissTXT laufend aus ihren Mandaten bei Broadcast, Bildung, Anlässen, Unternehmen und Politik. Dadurch wird die KI mittels Deep Learning ständig verbessert. «Zurzeit spielt der Mensch noch eine grosse Rolle in der Accessibility. Wir verbessern aber ständig unsere Daten, damit die automatischen Systeme mehr übernehmen. Irgendwann funktioniert dann alles automatisch», ist Robin Ribback überzeugt. Somit kann dann auch irgendwann das Ziel der hörbeeinträchtigten Menschen – nämlich 100 Prozent Live-Text, immer und überall – erreicht werden.
Das Ganze soll selbstverständlich nicht nur für Bildung und Fernsehen geschehen, sondern auch für Anlässe, Unternehmen und Politik. So sollen Sitzungen von National- oder Ständerat zusätzlich zu sonstigen Übersetzungen auch mit Audiodeskription und Gebärdensprache verfolgbar sein. Bei Events wird die Untertitelung von Stadionspeakern beispielsweise bereits heute gemacht. Menschen mit Hörbehinderung können bei Spielen des FC Bayern München im Stadion mit AR-Brille den Aussagen des Stadionspeakers folgen.
«Gehörlose wünschen sich Übersetzungen in Gebärdensprache», sagt Michaela Nachtrab, Business Developerin für Access Services, die selbst Gebärdensprachdolmetscherin ist. «Sie wollen sich in ihrer natürlichen Muttersprache verständigen.» Das ist nicht so simpel wie bei den Untertiteln. Denn bei der Gebärdensprache spielen mehrere Faktoren zum Verständnis eine Rolle. So ist bei der Gebärdensprache die Gebärde selbst wichtig, hinzu kommen noch der Oberkörper und die Mimik. «Schon kleine Bewegungen im Gesicht können Sinn unterscheidend sein. Wenn ich beispielsweise die Augenbrauen hochziehe und nach unten schaue, formuliere ich eine Frage», sagt Michaela Nachtrab. Und mit dem Oberkörper werden z.B. Positionen dargestellt.
Damit das gelingt, muss ein künstliches Abbild, eine KI, von Gebärdensprachdolmetschern gebaut werden. Ein Avatar sozusagen. «Avatar wir häufig mit Gamen gleichgesetzt. Deshalb nennen wir das bei uns Realatar», sagt Robin Ribback.
Zur Erstellung eines Realatars geht SwissTXT gleich vor wie bei der Untertitelung. Zuerst werden Dolmetscher in einem speziellen Studio aufgenommen und ein digitales Ebenbild erschaffen. Der so generierte Realattar kann auf Geräte wie Notebook oder Tablet übertragen werden. Wie beim Beispiel mit der Re-Speakerin können die Dolmetscher ihre Arbeit so von irgendwo verrichten. Es braucht lediglich noch eine Kamera die ihr Gesicht filmt und eine Kamera, die die Bewegungen wahrnimmt. Um die Bewegungen der Hände aufzunehmen werden Bewegungssensoren verwendet. Es ist künftig denkbar, dass jeder ein Abbild seiner selbst ablichten lassen kann und plötzlich Samuel L. Jackson für dich gebärdet.
«Das ist zurzeit die erste Phase, in der wir uns befinden, dem Live Remote Avatar Pupeteering», sagt Robin Ribback. «Das mag nach wenig klingen, aber so können die Dolmetscher ihre Arbeit von irgendwo, also auch von zuhause aus, verrichten. Das spart enorm Kosten», ergänzt Michaela Nachtrab. Jetzt geht es ans Sammeln von Bewegungs- und Mimikdaten: «Die Menschheit hat es bis jetzt verpasst, die optischen Bewegungsdaten der Gebärdensprachdolmetscher aufzuzeichnen», so Robin Ribback. In der Spracherkennung werden bereits seit 1987 Daten erhoben. Datenbanken für Gebärdensprache werden jetzt erst aufgebaut.
Als erstes werden Daten für Wettervorhersagen gesammelt. Das liegt daran, dass das Sprachrepertoire bei Wettervorhersagen relativ begrenzt und klar ist. Dadurch besteht wenig Raum für falsche Spracherkennung. Beim Sprachverständnis ist es nämlich so, dass Menschen etwa 99 Prozent richtig verstehen und Maschinen nur etwa 85 Prozent. Bei Gebärdensprache sinkt der Wert von Maschinen extrem. Erkennt eine Maschine 55 Prozent richtig, ist das bereits viel. Zum Verständnis von Sprache sind aber mindestens 90 Prozent korrekte Spracherkennung erforderlich.
Analog zur Untertitelung soll das Gebärdensprachdolmetschen in den drei Phasen automatisiert werden. Dazu wird die KI mit Natural language processing (NLP) und Deep Learning trainiert. Am Schluss soll die KI die gesprochene Sprache erkennen, in Gebärden umwandeln und den Realatar ausführen lassen.
An dieser Stelle kommt HbbTV ins Spiel. Dank dieser Technologie lässt sich ein transparentes Browser Overlay über dem Fernsehsignal anzeigen. Dadurch lassen sich Untertitel oder eben auch Gebärdensprachdolmetscher einblenden.
Was fürs Fernsehen funktioniert, sollte auch für andere Bereiche wie Bildung, Anlässe und Politik funktionieren. Wie bei den Beispielen zu «Kingsman: The Secret Service» und dem Stadionspeaker des FC Bayern München spielt Augmented Reality eine Rolle. Mit AR-Brillen sollen sich Gehörlose künftig den Gebärdendolmetscher auf die stereoskopische Brille holen.
Die Stereoskopie wirft aber weitere Fragen auf. «Wie können die Kingsman zusammen den Whisky trinken? Die holografischen Personen und Objekte sind ja fix im Raum. Es geht also weit über die einfache holografische Repräsentation aus. Da kommen Fragen auf, wie eine hybride Arbeitswelt funktioniert. Dahin geht die Forschung in Zukunft», ist Robin Ribback überzeugt.
Die Daten, die SwissTXT sammelt, stellt sie übrigens frei zur Verfügung. Hier erhältst du Zugriff.
Technologie und Gesellschaft faszinieren mich. Die beiden zu kombinieren und aus unterschiedlichen Blickwinkeln zu betrachten, ist meine Leidenschaft.