
Assistants vocaux: 5 epic fails

J’écris en ce moment un article sur la reconnaissance vocale. Même si le sujet est passionnant, la théorie derrière tout ça est tellement sèche que les yeux m’en tombent. Je m’en remets donc aux vidéos de fails desdits assistants vocaux pour récupérer entre deux paragraphes. Rien que pour vous, mon top 5.
Voici la fameuse scène de «The Big Bang Theory» à l’origine de l’article sur les limites des assistants vocaux.
Cet exemple illustre parfaitement les limites de la reconnaissance vocale en cas d’erreurs de prononciation. Siri ne comprend pas que Barry a des problèmes de prononciation. Les capacités d’apprentissage de l’assistant vocal ne sont pas suffisantes – son intelligence artificielle (IA) n’est pas assez développée pour pouvoir intégrer une mauvaise prononciation.
N°5 – Une histoire de toilettes
Commençons par un simple malentendu et un peu d’humour fécal. Au lieu de jouer la chanson «Splish Splash (I Was Taking a Bath)», Alexa cherche la chanson «Splish Splash I Was Taking a Crap».
N°4 – Même le PDG n’arrive pas à se faire comprendre
Le PDG de Microsoft, Satya Nadella, intervient en tant que Keynote-Speaker lors d’un congrès. Il parle d’intelligence artificielle et veut présenter l’assistant vocal de Microsoft, Cortana. Mais ce dernier ne comprend pas. Au lieu de «Show me my most at-risk opportunities» l’assistant vocal de Microsoft entend «Show me to buy milk at this opportunity» et programme un rappel pour acheter du lait au lieu de lui montrer des opportunités business… Satya Nadella obtient finalement ce qu’il veut avec l’aide des coulisses.
N°3 – Vous avez parlé de contrôle parental?
Voici une bonne leçon pour tous les parents: mieux vaut activer le contrôle parental pour éviter ce genre de moments. Au lieu de lancer une comptine («Digger, digger»), Alexa donne des suggestions de recherche sur des contenus pornographiques. Hum… Espérons que les assistants vocaux sauront distinguer différentes voix dans un futur proche. Alors, on sera sûr que ce genre de désagrément ne pourra plus arriver (si le contrôle parental est activé).
N°2 – Des chiffres et des lettres
On arrive aux ratés intéressants. Les langues sont complexes. Certains mots se prononcent exactement pareil bien qu’ils aient un sens tout à fait différent. On entend dans la vidéo, les exemples de four/for et two/to en anglais. En français, on a entre autres quand/camp ou aile/elle. On appelle ces mots des homophones et ils ont le pouvoir de perturber les assistants vocaux. Pour réussir à se faire comprendre correctement des assistants, il faut faire preuve d’un peu de créativité: le chemin le plus évident n’est pas toujours le meilleur.
Ça marche aussi pour les mots polysémiques et ils ne manquent pas dans nos langues. «Mesure» par exemple: ce mot évoque généralement une quantité ou une disposition légale. Mais il apparaît aussi dans le lexique musical avec le sens de division du temps musical en section d’égale durée. La liste est loin de s’arrêter là, je vous laisse le soin de la poursuivre.
N°1 – Personne ne comprend les Écossais (les Valaisans non plus)
Il n’existe que 6500 à 7000 langues dans le monde entier, mais les dialectes sont innombrables. Avec un si grand nombre de langues et leurs dialectes, il n’est pas surprenant que les assistants vocaux se concentrent sur une langue standard. Ils devraient reposer sur une IA bien plus avancée s’ils devaient comprendre les dialectes aussi. Même nous, les Suisses, nous ne comprenons pas toujours tous nos dialectes (désolé chers amis Valaisans, c’est bien de votre langue que je parle).
Ce qui vaut pour le suisse allemand, vaut aussi pour le dialecte écossais comme on le voit sur la vidéo. Les «voix» du seigneur sont impénétrables.


La technologie et la société me fascinent. Combiner les deux et les regarder sous différents angles est ma passion.