Dans un contexte de ralentissement perceptible des avancées des modèles de langage (LLM), les principaux acteurs de l'intelligence artificielle opèrent un changement de cap significatif. Google DeepMind, Meta et Nvidia investissent désormais massivement dans le développement de ce qu'ils appellent les « modèles du monde », une approche radicalement différente qui vise à doter les systèmes d'IA d'une compréhension du monde physique.
La fin de l'âge d'or des LLM ?
Les modèles de langage à grande échelle, qui ont propulsé des outils comme ChatGPT sur le devant de la scène, montrent des signes d'essoufflement. Malgré les investissements colossaux consentis par les géants technologiques, les sauts de performance entre les différentes versions de LLM se font plus rares et moins spectaculaires. Cette stagnation relative pousse l'industrie à explorer de nouvelles voies pour atteindre ce qu'elle appelle la « superintelligence » artificielle.
Yann LeCun, directeur scientifique de l'IA chez Meta et considéré comme l'un des pionniers du domaine, est particulièrement critique envers les limitations inhérentes aux LLM. Selon lui, ces modèles basés uniquement sur le texte ne pourront jamais développer de réelles capacités de raisonnement et de planification comparables à celles des humains.
Les modèles du monde : une approche révolutionnaire
Contrairement aux LLM qui s'appuient principalement sur des données textuelles, les modèles du monde s'entraînent à partir de vidéos et de données robotiques. Cette méthode permet aux systèmes d'apprendre le fonctionnement de l'environnement physique de manière beaucoup plus intuitive, en observant et en interagissant avec des représentations du monde réel.
Rev Lebaredian, vice-président chez Nvidia, estime le marché potentiel de cette technologie à près de 100 000 milliards de dollars, soit approximativement la taille de l'économie mondiale. « Si nous pouvons créer une intelligence capable de comprendre le monde physique et d'y opérer, l'opportunité est essentiellement de 100 000 milliards de dollars », affirme-t-il.
Les applications concrètes en développement
Plusieurs applications pratiques émergent déjà de cette nouvelle approche :
- Robotique et voitures autonomes : Les modèles du monde permettent de simuler des environnements complexes pour l'entraînement des systèmes sans risque réel
- Santé et manufacturing : La compréhension du monde physique ouvre des perspectives dans la simulation médicale et les processus industriels
- Divertissement interactif : Création d'environnements 3D réalistes et de scènes personnalisables en temps réel
Les acteurs en première ligne
Google DeepMind a récemment dévoilé Genie 3, un modèle capable de générer des vidéos image par image en tenant compte des interactions passées. Cette approche séquentielle représente une avancée significative par rapport aux méthodes traditionnelles qui créaient la vidéo dans son intégralité.
Meta développe quant à lui V-JEPA, s'inspirant directement de la manière dont les enfants apprennent par observation passive. Le laboratoire de recherche en IA de Meta teste actuellement cette technologie sur des robots, avec des résultats prometteurs.
Dans le secteur du divertissement, des startups comme World Labs, fondée par la pionnière de l'IA Fei-Fei Li, et Runway travaillent déjà sur des applications concrètes. Cette dernière collabore avec des studios hollywoodiens pour créer des environnements de jeu personnalisés avec des histoires et personnages générés en temps réel.
Les défis techniques à surmonter
Le développement des modèles du monde se heurte à plusieurs obstacles majeurs :
- Besoins massifs en données : La collecte d'informations sur l'environnement physique nécessite des efforts considérables
- Puissance de calcul exponentielle : L'entraînement de ces modèles dépasse les exigences déjà colossales des LLM
- Complexité de simulation : Reproduire fidèlement les lois physiques dans des environnements virtuels reste un défi technique
Des entreprises comme Niantic, connue pour Pokémon Go, ont commencé à constituer des bases de données massives grâce à leurs applications. La société a ainsi cartographié 10 millions de lieux et continue de collecter des données anonymisées via ses utilisateurs.
Une vision à long terme
Jensen Huang, PDG de Nvidia, considère que la prochaine phase de croissance majeure pour son entreprise viendra de ce qu'il appelle l'« IA physique ». Les modèles du monde pourraient en effet révolutionner le domaine de la robotique et des systèmes autonomes.
Selon les estimations de Yann LeCun, il faudra probablement une décennie pour atteindre l'objectif de systèmes d'IA dotés d'une intelligence de niveau humain. Cette timeline reflète la complexité des défis techniques qui restent à résoudre, mais aussi l'ampleur des transformations potentielles.
« Les méthodes vidéo traditionnelles représentent une approche brutale de la génération de pixels, où vous essayez de compresser le mouvement dans quelques images pour créer l'illusion du mouvement, mais le modèle ne sait pas vraiment ni ne raisonne sur ce qui se passe dans cette scène », explique Cristóbal Valenzuela, PDG de Runway.
À retenir
- Transition stratégique des LLM vers les modèles du monde face au plafonnement des performances
- Marché potentiel estimé à 100 000 milliards de dollars
- Entraînement basé sur vidéos et données robotiques plutôt que texte seul
- Applications prometteuses dans la robotique, les voitures autonomes et les agents IA
- Horizon de développement estimé à 10 ans pour atteindre une intelligence de niveau humain