OpenGPT-X a présenté "Teuken-7B", un modèle linguistique entraîné dans 24 langues officielles de l'UE. Avec sept milliards de paramètres et un accès open source, il vise à promouvoir la recherche européenne en matière d'IA et à améliorer la protection des données.

Vous avez certainement entendu parler de ChatGPT, Gemini, Claude et autres. Ces grands modèles de langage révolutionnent actuellement la façon dont nous interagissons avec les ordinateurs. La plupart de ces modèles de langage d'IA proviennent des États-Unis. Le projet de recherche OpenGPT-X s'est donné pour mission de construire une alternative européenne et surtout plus respectueuse de la vie privée.

OpenGPT-X a récemment publié un nouveau modèle de langage d'IA open source appelé "Teuken-7B", a annoncé l'Institut Fraunhofer des systèmes intelligents d'analyse et d'information IAIS https://www.iais.fraunhofer.de/de/presse/presseinformationen/presseinformationen-2024/presseinformation-241126.html. Il est dès à présent disponible sur Hugging Face pour téléchargement.

Formation en 24 langues officielles de l'UE

Ce modèle est particulier car il a été formé de A à Z avec les 24 langues officielles de l'Union européenne. Cela signifie que "Teuken-7B" est particulièrement à l'aise avec les langues européennes. L'accent a même été mis sur l'affichage des langues non anglaises, afin de se démarquer des modèles développés aux États-Unis et en Chine.

"Teuken-7B" dispose de sept milliards de paramètres. Ce nombre de paramètres permet au modèle de comprendre et de générer des textes complexes. Cela le rend particulièrement utile pour le traitement de texte, la traduction et les réponses aux questions. Les développeurs d'OpenGPT-X ont souligné que "Teuken-7B" est spécialement conçu pour être utilisé dans différents domaines de recherche et d'application de l'IA. Le modèle linguistique a été entraîné à l'aide du supercalculateur "Juwels" au centre de recherche de Jülich en Allemagne.

L'une des caractéristiques de "Teuken-7B" est sa nature open source. Cela signifie que les développeurs et les chercheurs du monde entier peuvent accéder librement au modèle, l'adapter et le développer selon leurs besoins. OpenGPT-X espère que cela permettra de stimuler l'innovation dans la recherche en IA. Le modèle open source permet également au modèle d'être utilisé et développé de manière éthique et responsable. Le projet de recherche a déjà annoncé qu'il continuera à travailler sur l'amélioration et l'extension de "Teuken-7B".

Qui se cache derrière OpenGPT-X?

Le projet de recherche et développement OpenGPT-X a été créé début 2022. Son objectif est de créer un modèle linguistique d'IA selon les valeurs européennes et sa diversité linguistique. Il est dirigé par les deux instituts allemands Fraunhofer pour les systèmes intelligents d'analyse et d'information (IAIS) et pour les circuits intégrés (IIS). L'université technique de Dresde, le centre de recherche de Jülich et des entreprises comme Aleph Alpha et Ionos sont également impliqués.

Mistral AI : un autre pionnier européen dans le domaine de l'IA

Il convient de noter que "Teuken-7B" n'est pas le seul grand modèle linguistique d'IA en provenance d'Europe. L'éditeur de logiciels français Mistral AI a développé plusieurs modèles de langage open source qui lui sont propres. Il s'agit notamment de "Mistral 7B", "Mistral 8x7B" et "Mistral 8x22B". L'entreprise a été fondée en avril 2023 par les chercheurs Arthur Mensch, Timothée Lacroix et Guillaume Lample, qui travaillaient auparavant chez Meta et Google DeepMind.