La robotique entre dans une nouvelle ère. Google DeepMind a dévoilé ce jeudi 25 septembre 2025 une paire de modèles d'intelligence artificielle qui confère aux robots une capacité inédite : celle de raisonner avant d'agir. Baptisés Gemini Robotics 1.5 et Gemini Robotics-ER 1.5, ces systèmes représentent une avancée significative vers la création de robots véritablement polyvalents.
Une approche révolutionnaire : séparer la pensée de l'action
Contrairement aux robots industriels traditionnels, hyper-spécialisés et rigides, l'approche de DeepMind repose sur une division des tâches entre deux intelligences artificielles complémentaires. Cette architecture duale vise à reproduire le processus cognitif humain, où la planification précède l'exécution.
« Les robots actuels sont hautement spécialisés et difficiles à déployer, nécessitant souvent plusieurs mois pour installer une cellule capable d'effectuer une seule tâche », explique Carolina Parada, responsable de la robotique chez Google DeepMind. Cette limitation fondamentale pourrait être surmontée grâce à l'IA générative.
Gemini Robotics-ER 1.5 : le cerveau planificateur
Le premier modèle, Gemini Robotics-ER 1.5 (Embodied Reasoning), joue le rôle de cerveau. Il s'agit d'un modèle vision-langage qui analyse une demande textuelle et l'environnement visuel pour générer une séquence d'instructions détaillées. Sa particularité réside dans sa capacité à décomposer des tâches complexes en étapes simples, à planifier leur exécution, et même à utiliser des outils externes comme la recherche Google pour enrichir sa compréhension.
Prenons l'exemple d'un tri de linge : face à une pile de vêtements, l'IA serait capable d'élaborer un plan précis pour séparer les blancs des couleurs, en tenant compte des spécificités du environnement.
Gemini Robotics 1.5 : le corps exécutant
Le second modèle, Gemini Robotics 1.5, est chargé de l'exécution. Ce modèle vision-langage-action transforme les instructions du planificateur en mouvements physiques précis. Lui aussi intègre une forme de réflexion lui permettant d'adapter ses gestes en temps réel grâce aux retours visuels.
« Il existe toutes sortes de pensées intuitives qui aident un humain à guider une tâche, mais les robots n'ont pas cette intuition. L'une des avancées majeures que nous avons réalisées avec la version 1.5 est sa capacité à réfléchir avant d'agir », précise Kanishka Rao de DeepMind.
La généralisation : une rupture technologique majeure
L'innovation la plus significative réside dans la capacité de ces modèles à fonctionner sur différentes plateformes robotiques sans adaptation spécifique. Contrairement aux approches traditionnelles qui nécessitaient un développement sur mesure pour chaque robot, les modèles Gemini Robotics peuvent transférer leurs compétences d'une « incarnation » physique à une autre.
- Bras manipulateur Aloha 2
- Robot humanoïde Apollo
- Autres plateformes robotiques compatibles
Cette généralisation ouvre la voie à une standardisation des capacités cognitives des robots, indépendamment de leur forme physique. Un même modèle pourrait ainsi piloter un bras industriel comme un robot de service, adaptant naturellement ses instructions aux spécificités mécaniques de chaque machine.
Une technologie prometteuse mais encore expérimentale
Si les démonstrations sont impressionnantes, la technologie n'en est qu'à ses débuts. Le modèle de raisonnement (ER) est dès à présent accessible aux développeurs via Google AI Studio, mais le modèle d'action, qui contrôle physiquement les robots, reste en phase de test restreinte auprès de partenaires privilégiés.
Cette distinction dans l'accessibilité reflète la prudence de Google face aux enjeux de sécurité que pose le contrôle physique par l'IA. Le déploiement grand public n'est pas pour demain, comme le reconnaît l'équipe de DeepMind.
Perspectives et implications pour l'industrie
Cette avancée pourrait révolutionner à moyen terme plusieurs secteurs industriels :
- Logistique et entrepôts automatisés
- Assistance aux personnes dépendantes
- Environnements dangereux (nucléaire, spatial)
- Maintenance industrielle complexe
La capacité des robots à s'adapter à des situations imprévues sans reprogrammation représente un gain de flexibilité et de productivité potentiellement considérable pour les entreprises. Cependant, cette évolution soulève également des questions éthiques et sociales quant à l'impact sur l'emploi et la place des robots dans notre société.
À retenir
- DeepMind a développé deux modèles d'IA complémentaires pour la robotique cognitive
- L'innovation majeure réside dans la capacité de raisonnement avant l'action
- Les modèles sont généralistes et fonctionnent sur différentes plateformes robotiques
- La technologie est encore expérimentale, seul le modèle de raisonnement est accessible
- Cette approche ouvre la voie à des robots véritablement polyvalents et adaptatifs