Dans une annonce majeure pour l'écosystème de l'intelligence artificielle, Google a dévoilé un nouveau serveur MCP (Model Context Protocol) pour sa plateforme Data Commons. Cette innovation permet aux développeurs et aux systèmes d'IA d'accéder via le langage naturel à l'immense réservoir de données publiques accumulé depuis 2018 par le géant technologique.

Un remède contre les hallucinations des IA

Le problème des « hallucinations » – ces réponses inventées ou erronées produites par les modèles de langage – représente l'un des principaux défis techniques du secteur. Ce phénomène survient lorsque les IA, confrontées à des données insuffisantes ou non vérifiées, « comblent les vides » avec des informations plausibles mais incorrectes.

« Les systèmes d'IA sont souvent entraînés sur des données web bruyantes et non vérifiées. Combiné à leur tendance à remplir les blancs lorsque les sources manquent, cela conduit aux hallucinations », explique Prem Ramaswami, responsable de Google Data Commons.

Data Commons : une bibliothèque de données publiques structurées

Lancé en 2018, Data Commons agrège et organise des ensembles de données publics provenant de sources diverses : recensements nationaux, enquêtes gouvernementales, données administratives locales et statistiques d'organismes internationaux comme les Nations Unies. Cette plateforme représente l'une des collections de données publiques les plus vastes et structurées disponibles.

Jusqu'à présent, l'accès à ces données nécessitait une expertise technique pour naviguer dans des API complexes. La nouveauté réside dans la capacité d'interroger cette base colossale en langage naturel, grâce à l'implémentation du protocole MCP.

Le MCP : un standard ouvert adopté par l'industrie

Le Model Context Protocol, initialement introduit par Anthropic en novembre 2024, est rapidement devenu un standard ouvert adopté par les principaux acteurs technologiques, dont OpenAI, Microsoft et désormais Google. Ce protocole fournit un cadre commun permettant aux systèmes d'IA d'accéder à des données provenant de diverses sources.

« Le Model Context Protocol nous permet d'utiliser l'intelligence du grand modèle de langage pour sélectionner les bonnes données au bon moment, sans avoir à comprendre comment nous modélisons les données ou comment notre API fonctionne », précise Prem Ramaswami.

Un cas concret : le partenariat avec l'ONG ONE Campaign

Pour démontrer l'utilité concrète de cette innovation, Google s'est associé à l'ONG ONE Campaign, organisation à but non lucratif focalisée sur l'amélioration des opportunités économiques et de la santé publique en Afrique. Ensemble, ils ont développé le « One Data Agent », un outil d'IA qui utilise le serveur MCP pour rendre accessibles en langage clair des dizaines de millions de points de données financières et sanitaires.

Ce partenariat a joué un rôle déterminant dans le développement du serveur MCP. L'ONG ONE Campaign avait approché l'équipe Data Commons de Google avec une implémentation prototype du MCP sur son propre serveur personnalisé. Cette interaction, en mai dernier, a constitué le point de basculement qui a conduit l'équipe à construire un serveur MCP dédié.

Accessibilité et compatibilité universelle

Contrairement à de nombreuses solutions propriétaires, le serveur MCP de Data Commons se distingue par son ouverture et sa compatibilité avec n'importe quel modèle de langage (LLM). Google a mis à disposition plusieurs moyens pour que les développeurs puissent commencer à l'utiliser :

  • Un agent exemple disponible via l'Agent Development Kit (ADK) dans un notebook Colab
  • Un accès direct via la ligne de commande Gemini
  • La possibilité d'utiliser n'importe quel client compatible MCP via le package PyPI
  • Des exemples de code fournis sur un dépôt GitHub

Implications pour l'écosystème IA

Cette initiative pourrait significativement accélérer le développement d'applications d'IA spécialisées dans des domaines nécessitant des données fiables et vérifiées : analyse économique, recherche en santé publique, études environnementales, ou encore journalisme de données.

En réduisant la barrière technique d'accès aux données structurées, Google permet à une communauté plus large de développeurs et de chercheurs de créer des systèmes d'IA mieux informés et plus précis. Cette démocratisation pourrait également favoriser l'émergence d'applications dans des secteurs à fort impact social.

Perspectives réglementaires et éthiques

L'initiative intervient dans un contexte de régulation croissante autour de l'IA et des données. En fournissant un accès à des données publiques vérifiées, Google répond partiellement aux préoccupations concernant la fiabilité des systèmes d'IA. Cependant, cette approche soulève également des questions sur la concentration du pouvoir informationnel entre les mains des géants technologiques.

« La capacité d'interroger des données complexes en langage naturel représente une avancée majeure pour rendre l'IA plus accessible et plus fiable », estime un expert du secteur.

À retenir

  • Google lance un serveur MCP pour Data Commons, permettant un accès en langage naturel à des données publiques vérifiées
  • Cette innovation vise à réduire les hallucinations des IA en leur fournissant des informations structurées et fiables
  • Le système est compatible avec tous les modèles de langage et accessible via plusieurs canaux de développement
  • Un partenariat avec l'ONG ONE Campaign démontre l'utilité concrète pour l'analyse de données socio-économiques
  • L'initiative pourrait accélérer le développement d'applications d'IA dans des domaines spécialisés