Retroscena

SwissTXT vuole rivoluzionare il mondo dell’interpretazione dei segni

Kevin Hofer
24.1.2019
Traduzione: Leandra Amato

Immagina di essere sordo. Usi il linguaggio dei segni per parlare con altri non udenti, ma come comunichi con chi non ha disabilità uditive? Leggendo le labbra o per iscritto. Non sarebbe bello se potessi comunicare con loro nella tua lingua? SwissTXT vuole utilizzare le nuove tecnologie per automatizzare la sottotitolazione e l'interpretazione del linguaggio dei segni.

Galahad entra nella sala riunioni Kingsman e viene accolto da Arthur. Si siede al tavolo, altrimenti vuoto. I due indossano un paio di visori AR e visualizzano gli altri agenti Kingsman sotto forma di avatar stereoscopici.

Questa scena del film «Kingsman - Secret Service» descrive il modo in cui SwissTXT si immagina il mondo dell'interpretazione dei segni del futuro. La realtà aumentata viene utilizzata per generare l'immagine di una persona, in questo caso un interprete, che traduce la lingua parlata in lingua dei segni in tempo reale.

Perché se ne occupa il Teletext?

SwissTXT: sono quelli che stanno dietro alle scritte fatte di pixel colorati su sfondo nero che vedi quando premi il pulsante del Teletext sul telecomando. E non solo. Fondata nel 1983, SwissTXT AG è un'affiliata della SRG. Tra le altre cose, l'azienda è responsabile dei servizi per l’accessibilità.

«35 anni fa ci siamo impegnati a fornire un servizio di sottotitolazione. Si trattava di un compito semplice, poi è arrivata la Convenzione delle Nazioni Unite sui diritti delle persone con disabilità e i requisiti di accessibilità sono aumentati. Grazie alle nuove tecnologie, sta accadendo di nuovo», afferma Robin Ribback, Innovation Manager di SwissTXT. Oggi, SwissTXT non solo fornisce sottotitoli ma, tra le altre cose, anche servizi di interpretazione per la lingua dei segni e descrizione audio, con l’obiettivo di garantire l’accesso all'informazione, all'istruzione e alla cultura a chi è affetto da disabilità sensoriali.

La Convenzione delle Nazioni Unite sui diritti delle persone con disabilità non si applica solo alla televisione, ma anche ad altri settori come l'istruzione, gli eventi, gli affari e la politica. «SwissTXT deve creare un ecosistema per l'accesso all'informazione, all'istruzione e alla cultura», continua Robin Ribback. In collaborazione con l'Università di Zurigo, le persone con disabilità sensoriali uditive possono, ad esempio, ascoltare sul tablet in tempo reale le lezioni tenute dai cosiddetti «respeaker». In questo modo, hanno accesso all'istruzione.

Da lingua parlata a lingua scritta

Come si traduce oggi la lingua parlata per le persone con disabilità uditive? Con i respeaker. Prendiamo l'università come esempio. Il discorso di una docente viene trasmesso online a un respeaker, che potrebbe trovarsi ovunque. Il suo compito è quello di riprodurre in lingua scritta ciò che viene detto tramite punteggiatura. Un software di riconoscimento vocale automatico mette per iscritto il discorso del respeaker. Questo testo viene trasmesso online alla persona con disabilità uditiva, che così può seguire la professoressa.

È così che funzionano i sottotitoli oggi. Il sistema è in fase di ottimizzazione. In una seconda fase, il respeaker dovrà essere sostituito da un sistema di riconoscimento vocale automatico nel mezzo del processo di traduzione, trasformando la lingua parlata in testo, che verrà a sua volta ottimizzato da un essere umano. Nella terza fase, l'essere umano verrà completamente escluso dal processo e un sistema di IA eseguirà la traduzione dalla lingua parlata al testo. A differenza di quello che vedi su Youtube, dove il testo parlato viene riprodotto parola per parola, qui il risultato sarà un testo pulito.

«Per noi, migliorare costantemente è importante. E, per farlo, raccogliere i dati è fondamentale», spiega Robin Ribback. SwissTXT raccoglie costantemente i dati relativi ai suoi mandati nell’ambito dei broadcast, della formazione, degli eventi, dell'economia e della politica. In questo modo l'IA apprende costantemente tramite Deep Learning. «Al momento, l'uomo gioca ancora un ruolo importante nei servizi per l'accessibilità. Tuttavia, miglioriamo costantemente i nostri dati in modo che i sistemi automatici possano prendersene sempre più carico. In futuro, sarà tutto automatizzato». Robin Ribback ne è convinto.

E questo non vale solo per l'istruzione e la televisione, ma anche per gli eventi, le aziende e la politica. Così le riunioni del Consiglio nazionale o del Consiglio degli Stati dovranno essere disponibili in più lingue, ma anche mediante descrizione audio e linguaggio dei segni. In occasione di eventi, ad esempio, la sottotitolazione dei commentatori negli stadi viene effettuata già oggi. Le persone con disabilità uditiva possono seguire i commenti alle partite del FC Bayern Monaco grazie a visori AR (in tedesco) direttamente nello stadio.

Da lingua parlata a lingua dei segni

Michaela Nachtrab, Business Developer per i servizi di accessibilità, nonché interprete di lingua dei segni, spiega che i non udenti vogliono traduzioni in lingua dei segni. «Vogliono comunicare nella loro lingua». In questo campo, le cose sono meno semplici che per i sottotitoli. La lingua dei segni è un linguaggio in cui molti fattori diversi ricoprono un ruolo specifico ai fini della comprensione: il gesto stesso, il modo in cui si muove la parte superiore del corpo e le espressioni facciali sono tutti elementi importanti. «Il volto può essere fondamentale: ad esempio, quando alzo le sopracciglia e guardo in basso, sto formulando una domanda», dice Michaela Nachtrab. E con la parte superiore del corpo posso dimostrare una posizione.

Per far sì che un processo di automatizzazione abbia successo, è necessario che ci siano gli interpreti di lingua dei segni stessi alla base di un'immagine, e quindi un'intelligenza, artificiale. Un avatar, per così dire. «Quando si pensa a un avatar, spesso si pensa ai videogiochi. Ecco perché in questo campo lo chiamiamo Realatar», dice Robin Ribback.

SwissTXT utilizza la stessa procedura della sottotitolazione per creare un Realatar. In primo luogo gli interpreti vengono registrati in uno speciale studio, dove viene creata un'immagine digitale. Il Realatar così generato può essere trasferito su dispositivi come notebook o tablet. Come nell'esempio del respeaker, gli interpreti possono svolgere il loro lavoro ovunque si trovino. È sufficiente che una telecamera filmi il loro volto mentre un’altra segue i loro movimenti. Per registrare i movimenti delle mani, vengono utilizzati appositi sensori. In un futuro, è plausibile che chiunque possa avere un proprio Realatar e che all’improvviso ti ritrovi Samuel L. Jackson come interprete dei segni.

«Questa è la prima fase ed è quella in cui ci troviamo attualmente: il Live Remote Avatar Pupeteering», spiega Robin Ribback. «Può sembrare poco, ma permette agli interpreti di fare il loro lavoro da qualsiasi luogo, anche da casa, facendo risparmiare una quantità enorme di costi», aggiunge Michaela Nachtrab. Ora è il momento di raccogliere dati sul movimento e sull'espressione facciale: «Finora l'essere umano non è riuscito a registrare i dati relativi al movimento ottico degli interpreti della lingua dei segni», continua Robin Ribback, mentre i dati per il riconoscimento vocale vengono raccolti dal 1987.

Oggi vengono costruite banche dati per il linguaggio dei segni, a partire dai dati relativi alle previsioni del tempo. Questo perché il repertorio linguistico in questo campo è relativamente limitato e chiaro, perciò c’è poco spazio per un riconoscimento vocale errato. Per quanto riguarda la lingua parlata, le persone capiscono correttamente circa il 99 percento e i computer solo l'85 percento. Con il linguaggio dei segni, la percentuale dei computer diminuisce notevolmente. Se un computer rileva correttamente il 55% di ciò che viene detto, è già molto. Per capire la lingua parlata, tuttavia, è necessario un riconoscimento vocale corretto almeno del 90%.

Come per i sottotitoli, l'interpretazione della lingua dei segni deve essere automatizzata in tre fasi. L'IA apprende tramite l’elaborazione del linguaggio naturale (PNL) e il Deep Learning (o apprendimento profondo). Alla fine, l'intelligenza artificiale dovrebbe riconoscere la lingua parlata, convertirla in gesti e farli eseguire dal realatar.

Come rendere tutto questo accessibile a persone con disabilità uditive

E qui entra in gioco HbbTV. Grazie a questa tecnologia, è possibile visualizzare una sovrapposizione trasparente del browser sul segnale televisivo, che permette così di accedere ai sottotitoli o agli interpreti della lingua dei segni.

Ciò che funziona per la televisione dovrebbe funzionare anche per altri settori come l'istruzione, gli eventi e la politica. Come per gli esempi presi da «Kingsman - Secret Service» e i commentatori dello stadio del FC Bayern Monaco, la realtà aumentata ricopre un ruolo importante. In futuro, le persone con disabilità uditive utilizzeranno visori AR per visualizzare interpreti del linguaggio dei segni su occhiali stereoscopici.

Ma la stereoscopia solleva ulteriori interrogativi. «Come fanno i Klingsman a bere whisky insieme? Le persone e gli oggetti olografici sono fissi nella stanza, quindi non si tratta di una semplice rappresentazione olografica. Viene spontaneo chiedersi come funzionerà questo mondo ibrido. È di questo che si occuperà la ricerca in futuro», afferma Robin Ribback.

I dati raccolti da SwissTXT vengono messi a disposizione gratuitamente. Accedi ai dati a questo link.

A 25 persone piace questo articolo


User Avatar
User Avatar

Tecnologia e società mi affascinano. Combinarle entrambe e osservarle da punti di vista differenti sono la mia passione.


Videogiochi
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Smartphone
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Informatica
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Potrebbero interessarti anche questi articoli

  • Retroscena

    La magia di «Interstellar» ritorna in IMAX

    di Luca Fontana

  • Retroscena

    Dobbiamo parlare un'ultima volta, Thermomix

    di Luca Fontana

  • Retroscena

    7 domande e risposte su DeepSeek

    di Samuel Buchmann

6 commenti

Avatar
later