
Assistenti vocali e malintesi

Ho deciso di scrivere un articolo sul riconoscimento vocale. Anche se l'argomento è entusiasmante, di teoria ce n’è ben poca. Infatti, mi devo arrangiare con alcuni video amatoriali relativi ai fallimenti degli assistenti vocali. Ecco la mia top 5.
L’idea di redigere questo articolo relativo ai limiti degli assistenti vocali nasce da questa scena di «The Big Bang Theory».
Questo esempio illustra perfettamente i limiti del riconoscimento vocale in caso di errori di pronuncia. Siri non capisce che Barry ha fatto un errore di pronuncia. L'assistente linguistico non è in grado di imparare, ovvero non dispone della necessaria intelligenza artificiale (AI) per integrare l'errore di pronuncia nel suo repertorio linguistico.
5. Una storia da gabinetto
Iniziamo con un semplice malinteso dall’umore un po’ fecale. Al posto di riprodurre la canzone «Splish Splash (I Was Taking a Bath)», Alexa cerca «Splish Splash I Was Taking a Crap».
4. Anche i CEO incontrano qualche problema
Durante una conferenza sull’intelligenza artificiale in cui occasione avrebbe presentato l’assistente vocale di Microsoft, Cortana, anche il CEO di Microsoft, Satya Nadella, ha avuto qualche problema. Infatti, l'amministratore delegato si è rivolto a Cortana chiedendo: «Mostrami le mie operazioni più rischiose» («Show me my most at-risk opportunities»). Cortana ha però capito un'altra cosa («Show me to buy milk at this opportunity») avviando una ricerca su come acquistare il latte. Insomma, Nadella al posto di ottenere delle informazioni relative agli affari ha avuto un promemoria sugli acquisti da fare… Solo con l’aiuto giunto da dietro le quinte, finalmente l’esperimento è riuscito.
3. Attivare il controllo genitori
Ecco una lezione per i genitori: è meglio attivare il controllo genitori per evitare situazioni del genere. Al posto di cercare una filastrocca («Digger, digger»), Alexa avvia una ricerca con contenuti pornografici. Chissà, forse in futuro gli assistenti vocali impareranno a riconoscere chi parla in base alla voce e situazioni simili non dovrebbero più accadere (sempre che il controllo genitori sia attivo).
2. Numeri e lettere
Veniamo ora a dei casi ancora più interessanti. La lingua è complessa e alcune parole vengono pronunciate allo stesso modo anche se hanno due significati diversi, ad esempio: anno e hanno, l'ago e lago, ceco e cieco, la normale e l'anormale. Un caso emblematico è rappresentato dai seguenti esempi la cui pronuncia è sempre la stessa ma a cui possono corrispondere ben sei grafie diverse: a letto, al letto, all'etto, alletto, ha l'etto, ha letto. Questi particolari condizioni linguistiche possono mettere in grandi difficoltà gli assistenti vocali. Pertanto, per farsi capire correttamente, ci vuole una buona dose di creatività: la strada più semplice non sempre è quella migliore.
Oltre ai casi di omofonia, cioè la relazione tra due parole che hanno la stessa pronuncia ma significato diverso, troviamo anche la polisemia, ovvero parole scritte allo stesso modo ma con significati diversi, come per esempio miglio (cereale) e miglio (unità di misura). La lista è infinita, lascio a te il divertimento di scoprirne di altre.
1. Nessuno capisce gli scozzesi (e nemmeno i vallesani)
Si stima che nel mondo esistano tra le 6’500 e 7’000 lingue, senza contare gli innumerevoli dialetti. Dato un numero così alto di lingue e relativi dialetti non sorprende il fatto che gli assistenti vocali si basino su delle lingue standard. Per capire anche i dialetti, essi dovrebbero disporre di un’intelligenza artificiale ben più avanzata di quella attuale. Nemmeno noi svizzeri ci capiamo tra i diversi dialetti, scusate amici vallesani, ma mi riferisco proprio a voi.
Questo problema non riguarda solo i svizzero-tedeschi, bensì anche il dialetto scozzese come dimostrato in questo video. Il riconoscimento vocale incontra parecchie difficoltà nel capire l’interlocutore.


Tecnologia e società mi affascinano. Combinarle entrambe e osservarle da punti di vista differenti sono la mia passione.