Google DeepMind franchit une étape décisive dans l'intelligence artificielle appliquée à la robotique. La division recherche de Google a dévoilé ce jeudi une mise à jour majeure de ses modèles Gemini dédiés aux robots, leur conférant une capacité inédite : consulter Internet pour accomplir des tâches complexes nécessitant une compréhension contextuelle.
De l'exécution simple à la résolution de problèmes
Jusqu'à présent, les robots équipés d'IA se limitaient à l'exécution d'instructions unitaires - plier un vêtement, saisir un objet. Avec Gemini Robotics 1.5, ils peuvent désormais planifier et réaliser des enchaînements d'actions sophistiqués, faisant preuve d'une véritable capacité de raisonnement.
« Les modèles précédents excellaient dans l'exécution d'une instruction à la fois, de manière générale. Avec cette mise à jour, nous passons d'une simple instruction à une véritable compréhension et résolution de problèmes pour les tâches physiques », explique Carolina Parada, responsable de la robotique chez Google DeepMind.
Le duo d'IA qui change la donne
Le système repose sur la collaboration de deux modèles spécialisés :
Gemini Robotics-ER 1.5 : le cerveau planificateur
Ce modèle d'« raisonnement incarné » permet au robot de comprendre son environnement immédiat et, innovation majeure, d'utiliser des outils numériques comme la recherche Google pour acquérir des informations contextuelles. Il analyse la situation, identifie les besoins informationnels et effectue les requêtes nécessaires.
Gemini Robotics 1.5 : le coordinateur d'actions
Ce second modèle transforme les instructions en langage naturel générées par le premier en actions physiques concrètes. Il pilote les mouvements du robot en s'appuyant sur ses capacités de vision par ordinateur et de compréhension du langage.
« Les robots peuvent maintenant penser plusieurs étapes à l'avance avant d'agir dans le monde physique »
Des démonstrations concrètes et impressionnantes
Les applications pratiques de cette technologie sont déjà visibles dans plusieurs scénarios démontrés par Google DeepMind :
- Tri intelligent du linge : séparation automatique des vêtements foncés et clairs
- Préparation de valise contextuelle : choix des vêtements adaptés à la météo londonienne du jour
- Tri sélectif évolué : consultation des règles locales de recyclage avant de jeter un déchet
Dans ce dernier cas, le robot interroge activement Internet pour connaître les consignes spécifiques à une municipalité avant de prendre sa décision, démontrant une capacité d'adaptation remarquable.
Une interopérabilité révolutionnaire
Autre avancée significative : ces modèles favorisent l'interopérabilité entre différentes plateformes robotiques. Les compétences acquises sur un type de robot peuvent être transférées à un autre, même avec une configuration mécanique radicalement différente.
« Cela nous permet deux choses : contrôler des robots très différents - y compris un humanoïde - avec un seul modèle, et transférer les compétences apprises sur un robot à un autre », précise Kanishka Rao, ingénieur logiciel chez Google DeepMind.
Les tests ont montré que les tâches présentées au robot ALOHA2 (deux bras mécaniques) fonctionnent immédiatement sur le robot humanoïde Apollo d'Apptronik, sans adaptation spécifique.
Accessibilité et déploiement progressif
Google DeepMind adopte une stratégie de déploiement différenciée :
- Gemini Robotics-ER 1.5 est dès à présent accessible aux développeurs via l'API Gemini dans Google AI Studio
- Gemini Robotics 1.5 reste pour le moment réservé à des partenaires sélectionnés
Cette approche permet d'encadrer le développement tout en favorisant l'innovation dans l'écosystème robotique.
Perspectives et implications
Cette évolution ouvre la voie à des applications robotiques beaucoup plus autonomes et adaptatives, potentiellement utilisables dans :
- L'assistance aux personnes dépendantes
- La logistique et l'entreposage intelligent
- Les environnements industriels complexes
- Les interventions en milieux hostiles
Reste à surveiller les questions éthiques et de sécurité que soulève cette autonomie accrue, notamment concernant la fiabilité des informations recueillies sur le web et la prise de décision en environnement non contrôlé.
À retenir
- Passage des tâches simples aux enchaînements complexes nécessitant planification
- Intégration de la recherche web pour l'adaptation contextuelle
- Collaboration entre deux modèles IA spécialisés (raisonnement et action)
- Interopérabilité entre robots de conceptions différentes
- Déploiement progressif via API pour les développeurs