Google DeepMind franchit une nouvelle étape dans le développement de l'intelligence artificielle avec le lancement de Gemini 2.5 Computer Use, une version spécialisée capable d'interagir directement avec les interfaces utilisateur. Disponible en préversion, ce modèle ouvre la voie à une automatisation avancée des tâches numériques.

Une révolution dans l'interaction homme-machine

Gemini 2.5 Computer Use représente une avancée significative dans la capacité des agents IA à comprendre et manipuler les environnements graphiques. Contrairement aux modèles traditionnels qui se contentent de générer du texte, cette technologie peut effectuer des actions concrètes comme remplir des formulaires, cliquer sur des boutons, naviguer dans des menus déroulants et même accéder à des espaces sécurisés par mot de passe.

"La capacité à remplir nativement des formulaires, manipuler des éléments interactifs et opérer derrière des écrans de connexion constitue une étape cruciale vers la création d'agents polyvalents et puissants", souligne Google DeepMind.

Fonctionnement technique et architecture

Le modèle opère selon un principe de boucle interactive sophistiqué. Il reçoit en entrée une capture d'écran de l'environnement, la requête utilisateur et l'historique des actions récentes. En sortie, il génère des actions spécifiques à l'interface utilisateur qui sont ensuite exécutées par du code côté client.

Applications concrètes démontrées

Les démonstrations réalisées par Google DeepMind illustrent le potentiel de cette technologie :

  • Transfert automatisé de données vers un système CRM
  • Organisation et catégorisation de notes numériques
  • Navigation complexe dans des applications web
  • Gestion de processus multi-étapes

Performances et capacités techniques

Gemini 2.5 Computer Use affiche des résultats impressionnants sur les benchmarks spécialisés. Le modèle atteint une précision supérieure à 70% sur des plateformes d'évaluation comme Online-Mind2Web, WebVoyager et AndroidWorld, avec une latence moyenne d'environ 225 secondes pour l'exécution des tâches complexes.

Optimisé principalement pour les navigateurs web, le modèle montre également un potentiel prometteur pour le contrôle des interfaces mobiles. En revanche, il n'est pas encore conçu pour les tâches au niveau du système d'exploitation desktop.

Enjeux de sécurité et garde-fous

Google DeepMind a intégré des mécanismes de sécurité robustes pour prévenir les risques potentiels liés au contrôle d'interfaces par l'IA. Les développeurs peuvent configurer l'agent pour qu'il refuse certaines actions sensibles ou demande une confirmation humaine avant leur exécution.

"Les développeurs peuvent spécifier que l'agent refuse ou demande une confirmation utilisateur avant d'entreprendre des actions à haut risque", précise l'entreprise.

Accessibilité et déploiement

La préversion de Gemini 2.5 Computer Use est accessible via l'API Gemini, disponible sur les plateformes Google AI Studio et Vertex AI Studio. Cette approche permet aux développeurs de tester et d'intégrer progressivement ces capacités dans leurs applications.

Perspectives et implications

Cette innovation pourrait transformer profondément l'automatisation des processus numériques, depuis la saisie de données jusqu'à la navigation dans des applications complexes. Elle ouvre également la voie à de nouvelles formes d'assistance numérique et d'accessibilité.

À retenir

  • Gemini 2.5 Computer Use permet à l'IA d'interagir directement avec les interfaces graphiques
  • Le modèle fonctionne en boucle à partir de captures d'écran et d'historiques d'actions
  • Précision supérieure à 70% avec une latence d'environ 225 secondes
  • Mécanismes de sécurité intégrés pour les actions sensibles
  • Disponible en préversion via Google AI Studio et Vertex AI