Comment SwissTXT veut révolutionner l'interprétation pour les personnes malentendantes

Comment SwissTXT veut révolutionner l'interprétation pour les personnes malentendantes

Kevin Hofer
Zurich, le 24.01.2019
Responsabilité de traduction: Anne Chapuis
Imaginez que vous êtes sourd. Vous communiquez avec d'autres malentendants en langage des signes, mais comment faites-vous avec les personnes entendantes? Vous devez lire sur leurs lèvres ou utiliser le langage écrit. Ne serait-ce pas génial si vous pouviez communiquer avec eux dans votre langue? SwissTXT souhaite automatiser l'interprétation en langage des signes et le sous-titrage pour personnes sourdes et malentendantes à l'aide de nouvelles technologies.

Galahad pénètre dans la salle de réunion de Kingsman et est accueilli par Arthur. Il s'assied à la table, seul. Les deux protagonistes enfilent leurs lunettes de RA et voient apparaître les autres agents de Kingsman sous forme d'avatars créés à l'aide de la stéréoscopie.

Cette scène tirée du film «Kingsman: Services secrets» montre bien comment SwissTXT se représente l'interprétation pour personnes sourdes et malentendantes du futur. Grâce à la réalité augmentée, l'image d'une personne (un interprète dans notre cas) serait générée et traduirait en temps réel ce qui se dit en langage des signes.

Pourquoi cette tâche revient-elle au télétexte?

SwissTXT, c'est le texte coloré de type pixels sur fond noir qui apparaît sur l'écran de ma télévision lorsque j'appuie sur la touche «texte» de ma télécommande, n'est-ce pas? Exactement, mais pas seulement. Fondée en 1983, SwissTXT AG est une filiale de la SSR. L'entreprise est également responsable de la réalisation des services d'accès.

Wer liest eigentlich noch den *Teletext**?
placeholder

placeholder

«Il y a 35 ans, nous nous sommes engagés à fournir des services de sous-titrage. Au début, c'était simple. Puis est apparue la Convention de l'ONU relative aux droits des handicapés, et les demandes en matière d'accessibilité ont augmenté. Et elles se sont encore davantage développées avec les technologies que nous avons à présent à disposition», déclare Robin Ribback, Innovation Manager chez SwissTXT. L'entreprise propose donc aussi de l'interprétation en langage des signes et de l'audiodescription. Les personnes atteintes d'un handicap sensoriel ont ainsi accès à de l'information, à de la formation et à la culture.

La Convention de l'ONU relative aux droits des personnes handicapées ne concerne toutefois pas que la télévision, mais également des domaines comme la formation, l'événementiel, les affaires et la politique. «SwissTXT doit créer un écosystème propice à l'accès à l'information, à la formation et à la culture», ajoute Robin Ribback. Elle collabore avec l'Université de Zurich afin que les personnes sourdes et malentendantes puissent participer à des cours via des respeakers sur leur tablette. Ce procédé leur donne accès à l'éducation.

aucune information disponible sur cette image

Le passage de l'oral à l'écrit

Comment les paroles sont-elles traduites pour les personnes sourdes et malentendantes de nos jours? Grâce aux respeakers. L'exemple de l'université l'illustre bien. Le procédé est le suivant: le cours d'une doctorante est transmis en ligne à un respeaker qui peut se trouver n'importe où dans le monde. Sa tâche consiste à reformuler ce qui a été dit et à y ajouter une ponctuation. Un logiciel de reconnaissance vocale transcrit ensuite ce qu'a dit le respeaker. Puis ce texte est transmis en ligne à la personne sourde ou malentendante, qui peut ainsi suivre le cours.

C'est comme ça que fonctionne le sous-titrage à l'heure actuelle. Or, ce système va être optimisé. Dans une deuxième étape, le respeaker sera remplacé par un logiciel de reconnaissance vocale automatique, qui transformera le discours en texte. Ce dernier sera ensuite optimisé par un être humain. Dans une troisième étape, l'intervention de l'être humain sera complètement supprimée, et seule l'IA se chargera de transcrire le discours. Cela ne fonctionnera toutefois pas comme sur Youtube, où les paroles sont simplement transcrites. Non, un texte bien écrit sera produit.

«Nous accordons une grande importance à l'amélioration continue de nos technologies. Et la récolte de données en est l'élément décisif», nous confie Robin Ribback. Pour ce faire, SwissTXT fait appel à des mandataires dans les domaines de la diffusion, de la formation, de l'événementiel, des affaires et de la politique. L'IA est continuellement améliorée grâce au deep learning (ou «apprentissage profond» en bon français). «L'être humain joue encore un grand rôle dans l'accessibilité. Mais nous améliorons constamment nos données afin que les systèmes automatiques puissent en intégrer davantage. Tout finira par fonctionner automatiquement.» Robin Ribback en est convaincu.

Et tout cela ne se limitera bien entendu pas à la formation et à la télévision, mais aussi à l'événementiel, au monde des affaires et à la politique. En effet, outre les diverses traductions habituelles, des sessions du Conseil national et du Conseil des Etats pourront être suivies grâce à de l'audiodescription et de l'interprétation en langage des signes. Les commentateurs sportifs sont d'ailleurs déjà sous-titrés lors de certains événements. Ainsi, lors des matchs du FC Bayern Munich, les personnes sourdes et malentendantes ont accès à des lunettes de RA (en allemand).

De la langue orale au langage des signes

«Les personnes sourdes et malentendantes souhaitent avoir accès à de l'interprétation en langage des signes», déclare Michaela Nachtrab, Business Developer pour les services d'accès de SwissTXT, elle-même interprète. «Elles souhaitent s'informer dans leur langue.» Ce n'est toutefois pas aussi simple que le sous-titrage. En effet, la compréhension du langage des signes fait intervenir plusieurs facteurs. Les gestes en eux-mêmes, les mouvements du haut du corps et les expressions du visage sont tous importants. «Les expressions du visage peuvent changer le sens d'un énoncé. Par exemple, si je lève les sourcils et que je baisse le regard, je pose une question», nous explique Michaela Nachtrab. Et le haut du corps permet d'adopter diverses positions.

aucune information disponible sur cette image

Pour que le système fonctionne, une image virtuelle d'un interprète doit être créée. Un avatar, en somme. «Les avatars sont souvent associés aux jeux vidéo. Nous appelons donc les nôtres des realatars», précise Robin Ribback.

Pour créer un realatar, SwissTXT procède de la même manière qu'en sous-titrage. Tout d'abord, des interprètes sont enregistrés dans un studio spécial pour créer des realatars à partir d'eux. Ils sont ensuite transmis sur des ordinateurs portables ou des tablettes. Comme pour les respeakers, les interprètes peuvent ensuite faire leur travail depuis n'importe où dans le monde. Ils n'ont besoin que de deux caméras: l'une filme leur visage, et l'autre enregistre leurs mouvements. Des capteurs de mouvements sont utilisés pour enregistrer les gestes des mains. À l'avenir, on pourrait imaginer que chacun puisse créer un alter ego virtuel, et que tout d'un coup Samuel L. Jackson se mette à interpréter en langage des signes sur votre écran.

Wenn Darth Vader die Nachrichten verliest
placeholder

placeholder

«Nous nous trouvons encore dans la première phase, qu'on appelle le live remote avatar puppeteering (littéralement la télécommande d'avatars en temps réel)», précise Robin Ribback. «Ça ne vous dit peut-être pas grand-chose, mais c'est comme ça que les interprètes peuvent faire leur travail depuis n'importe où, même depuis chez eux. Ce procédé nous fait économiser énormément d'argent», ajoute Michaela Nachtrab. Il s'agit à présent de récolter des données sur les mouvements et les expressions: «jusqu'à présent, nous n'avons pas enregistré les données optiques associées aux mouvements des interprètes en langage des signes», précise Robin Ribback. Or elles sont déjà récoltées depuis 1987 dans le domaine de la reconnaissance vocale. Des bases de données destinées au langage des signes sont créées.

Les premières données proviennent des bulletins météo, car le vocabulaire y est relativement clair et limité. Cela minimise le risque d'erreurs de reconnaissance. En fait, l'être humain reconnaît environ 99% du langage correctement, alors que les machines se situent à environ 85%. En langage des signes, les machines sont bien moins performantes. Si elles comprennent 55 % du langage, c'est déjà beaucoup. Mais pour comprendre une langue, la reconnaissance doit atteindre au moins 90%.

Comme pour le sous-titrage, l'interprétation en langage des signes sera automatisée dans les trois phases. L'AI est entraînée avec du traitement automatique du langage naturel (TALN) et de l'apprentissage profond. Au final, l'IA est censée reconnaître les paroles, les transformer en langage des signes et les faire interpréter par un realatar.

Voici comment toutes les personnes sourdes et malentendantes auront accès à cette technologie

C'est là qu'intervient la HbbTV. Grâce à cette technologie, du contenu translucide se superpose au signal télévisuel. Des sous-titres et des interprètes en langage des signes peuvent ainsi être insérés.

aucune information disponible sur cette image

Et cela devrait aussi être appliqué à d'autres domaines comme la formation, l'événementiel et la politique. La réalité augmentée y joue un rôle important, comme dans les exemples de «Kingsman: Services secrets» et du FC Bayern que j'ai évoqués ci-dessous. Les personnes sourdes et malentendantes pourront à l'avenir utiliser des lunettes de RA pour voir des images stéréoscopiques d'interprètes en langage des signes.

Mais la stéréoscopie est source d'interrogations. Comment les Kingsman peuvent-ils boire du whisky ensemble, puisque les hologrammes et les objets ne peuvent se déplacer? Le problème va donc bien au-delà de la représentation sous forme d'hologrammes. On pourrait également se demander comment un monde du travail hybride fonctionnerait. C'est à ces questions que répondra la recherche, Robin Ribback en est convaincu.

Les données récoltées par SwissTXT sont accessibles au public ici.

Cet article plaît à 24 personne(s)


Kevin Hofer
Kevin Hofer
Editor, Zurich
La technologie et la société me fascinent. Combiner les deux et les regarder sous différents angles est ma passion.

Ces articles pourraient aussi vous intéresser