Gemini Robotics : l'IA rencontre le monde réel

Martin Jud Traduction: traduction automatique 13/3/2025

Avec les modèles d'IA Gemini Robotics et Gemini Robotics-ER, basés sur Gemini 2.0, Google DeepMind veut faire progresser la robotique : Le modèle de base gère les tâches physiques, tandis que ER résout des problèmes complexes dans des environnements dynamiques.

Google DeepMind veut créer des robots qui agissent et pensent de manière autonome. Dans cette optique, l'entreprise vient de présenter une nouvelle étape dans l'association de l'intelligence artificielle (IA) et de la robotique : les modèles Gemini Robotics et Gemini Robotics-ER (Embodied Reasoning), basés sur Gemini 2.0. Ces deux modèles visent à rendre les systèmes d'IA capables d'agir non seulement dans le monde numérique, mais aussi dans le monde physique.

Alors que Gemini Robotics se concentre sur les bases de l'interaction physique, Gemini Robotics-ER ajoute à ces capacités le raisonnement logique pour résoudre des problèmes complexes. L'accent est mis sur le développement de robots capables d'effectuer des tâches de manière autonome dans des environnements dynamiques, de la logistique d'entrepôt à l'assistance quotidienne.

Trois innovations clés font avancer le développement

Les avancées de Gemini Robotics reposent sur trois piliers technologiques :

1. universalité

La capacité d'appliquer des modèles d'IA de manière universelle à différents robots et tâches, sans adaptation sur mesure. Par exemple, la même IA peut contrôler à la fois un bras robotisé dans la fabrication et un robot mobile dans la logistique. L'IA peut également faire face à des situations qui n'ont jamais été abordées en formation et les maîtriser.

2. interactivité

Gemini Robotics, comme Gemini 2.0, est intuitif et interactif. L'IA comprend différents langages ainsi que le langage courant et peut répondre à des instructions complexes. Comme elle surveille en permanence l'environnement, elle détecte les changements et peut y répondre de manière dynamique.

3. la dextérité

Le système aide à manipuler physiquement des objets avec précision dans des espaces 3D. Il peut saisir des objets fragiles, plier du papier ou empiler des boîtes sans programmation préalable.

Des capacités accrues grâce au "raisonnement intégré"

Gemini Robotics-ER s'appuie sur ces trois fondamentaux et intègre la capacité à mieux raisonner en temps réel. Cela devrait notamment permettre d'améliorer le raisonnement spatial. Le modèle doit permettre aux robots de résoudre des problèmes complexes dans des environnements imprévisibles - par exemple en planifiant des chaînes d'actions, en définissant des priorités ou en identifiant des relations de cause à effet. Grâce au raisonnement spatial combiné à la capacité de programmation, Gemini permet également aux robots d'acquérir des compétences entièrement nouvelles - des actions quasi intuitives.

Le modèle d'IA doit également analyser et maîtriser les situations complexes ou chaotiques grâce à la pensée incarnée» « .

Source : Google DeepMind

Si une solution au problème ne peut être trouvée par l'utilisateur, le modèle peut également suivre une démonstration humaine afin d'apprendre en fonction du contexte.

A long terme, les nouveaux modèles d'IA devraient être utilisés dans l'industrie, l'aide aux sinistrés et comme assistance quotidienne. Gemini Robotics devrait automatiser des tâches physiques répétitives, tandis que Gemini Robotics-ER agira comme un résolveur de problèmes dans des contextes imprévisibles.

Photo d’en-tête : Google DeepMind

