
Comment enseigner 200 langues à une IA

Le programme de traduction NLLB de Meta maîtrise plus de 200 langues, soit bien plus que DeepL ou Google Translate. Les chercheurs expliquent maintenant comment cela a été possible.
Depuis quelques années, il n'est plus nécessaire de traduire mot à mot pour passer d'une langue à l'autre. Des programmes de traduction par IA tels que DeepL ou Google Translate peuvent traduire des sections entières de texte d'une langue à l'autre en un rien de temps, à condition qu'il s'agisse d'une langue répandue dans le Nord, comme l'anglais, le français ou l'allemand. En revanche, si vous souhaitez traduire le luganda, une langue bantoue parlée dans le sud de l'Ouganda, vous rencontrerez généralement des problèmes. Comme il n'existe que peu de contenu numérique dans cette langue, il est très difficile d'entraîner une IA. Mais en 2022, Meta a publié le programme de traduction à code source libre NLLB (no language left behind), qui gère 204 langues, dont 150 langues à faibles ressources comme le luganda. Le 5 juin 2024, l'équipe de Meta a expliqué dans la revue scientifique "Nature" comment ce coup de génie avait été réalisé.
En plus de l'absence de sources textuelles sur les langues à faibles ressources, il existe une autre difficulté majeure dans la création d'un programme de traduction d'IA complet. Si l'on entraîne de tels algorithmes pour le plus grand nombre de langues possible, la qualité globale en pâtit généralement. Un programme qui traduit habituellement très bien entre l'allemand et l'anglais peut par exemple avoir beaucoup plus de mal à accomplir la tâche s'il doit maîtriser 40 autres langues. Pour éviter cette perte de performance, il faut généralement augmenter la taille des modèles - ce qui entraîne toutefois un effort d'entraînement nettement plus important et des temps d'exécution plus longs.
Pour éviter cette "malédiction du multilinguisme", l'équipe Meta a divisé le modèle linguistique NLLB en plusieurs petits modèles d'IA différents, chacun d'entre eux étant particulièrement performant dans une tâche donnée. Par exemple, l'un d'entre eux s'occupe des langues Bénoué-Congo, qui sont répandues dans l'Afrique subsaharienne, tandis qu'un autre se concentre sur les langues ayant une écriture similaire. Un autre modèle pourrait également se spécialiser dans les expressions idiomatiques. L'utilisation de ces modèles d'IA distincts permet d'éviter les pertes de qualité dues à un grand nombre de langues.
Un ensemble de données complet
L'un des éléments les plus importants du modèle NLLB est cependant le jeu de données : "Flores-200" est accessible à tous et comprend 204 langues différentes. Le modèle linguistique a été entraîné avec trois types de données différents. Tout d'abord, les chercheurs ont collecté des textes accessibles au public sur Internet, ainsi que 6000 phrases d'exemple sélectionnées dans 39 langues, qui ont très peu de ressources. En outre, ils ont utilisé certaines phrases et leurs traductions disponibles dans les archives web. Grâce à ces données, ils ont pu entraîner un algorithme à attribuer des coordonnées de grande dimension proches les unes des autres à des phrases ayant un sens similaire dans différentes langues (comme "I like science", "J'aime la science" et "j'aime la science"). De cette manière, les spécialistes ont pu créer des paires de phrases ayant la même signification dans différentes langues afin d'entraîner leur grand modèle d'IA.
En attendant, le programme de traduction NLLB est utilisé depuis deux ans déjà. "Il fournit des traductions de qualité raisonnable dans plusieurs langues à faibles ressources", écrit l'informaticien David I. Adelani de l'University College London, qui ne fait pas partie de la méta-équipe, dans un article de "Nature". "Cependant, la qualité de ces traductions est encore nettement inférieure à celle des langues avec beaucoup de ressources", comme l'allemand ou le français. Pour y remédier, les futurs modèles linguistiques pourraient améliorer leur compréhension de la langue grâce à des grammaires et des dictionnaires, comme le suggèrent des études publiées en mars 2024. Mais il faudra encore beaucoup de temps avant qu'un programme de traduction puisse maîtriser les 7000 langues existantes.
Spektrum der Wissenschaft
Nous sommes partenaires de Spectre des Sciences et souhaitons vous rendre l'information plus accessible. Suivez Spectre des Sciences si vous aimez ses articles.
Article original sur Spektrum.de

Des experts de la science et de la recherche rendent compte des dernières découvertes dans leur domaine – de manière compétente, authentique et compréhensible.