Anthropic, l'une des sociétés les plus en vue dans le domaine de l'intelligence artificielle, vient de dévoiler Claude Sonnet 4.5, présenté comme son modèle le plus performant à ce jour. Cette annonce intervient dans un contexte de compétition intense avec OpenAI et Google, où les avancées en matière d'endurance et de fiabilité deviennent des critères déterminants.
Une endurance remarquable dans les tâches longues
La caractéristique la plus frappante de Claude Sonnet 4.5 réside dans sa capacité à maintenir sa concentration sur des projets complexes pendant plus de 30 heures. Cette performance représente une avancée significative dans le domaine des agents IA, traditionnellement limités par la perte de cohérence au fil du temps.
« Nous avons observé Sonnet 4.5 travailler continuellement sur le même projet pendant plus de 30 heures sur des tâches complexes à multiples étapes », indique Anthropic dans son communiqué. Bien que l'entreprise n'ait pas fourni de détails spécifiques sur la nature exacte de ces tâches, cette endurance dépasse les précédentes démonstrations des modèles Claude 4.0, qui pouvaient déjà jouer à Pokémon pendant plus de 24 heures ou restructurer du code pendant sept heures.
Des performances techniques impressionnantes
Supériorité en programmation
Sur le plan technique, Claude Sonnet 4.5 affiche des résultats exceptionnels dans les benchmarks de programmation. Le modèle atteint 77,2% au test SWE-bench Verified, une évaluation qui mesure les capacités de codage en conditions réelles. Cette performance place Anthropic devant ses principaux concurrents :
- OpenAI GPT-5 Codex : 74,5%
- Google Gemini 2.5 Pro : 67,2%
Sur le benchmark OSWorld, qui évalue les capacités des modèles à accomplir des tâches informatiques pratiques, Sonnet 4.5 atteint 61,4%, contre 42,2% pour sa version précédente il y a quatre mois seulement.
Progrès en mathématiques et finance
Au-delà de la programmation, le modèle montre des améliorations notables dans d'autres domaines spécialisés. Il obtient un score de 92% au benchmark Finance Agent, conçu pour tester les compétences attendues d'un analyste financier débutant. Des progrès sont également observés sur les tests mathématiques AIME 2024 et sur l'évaluation MMMLU, qui mesure les connaissances dans 14 langues non anglaises.
Une architecture optimisée
Pour comprendre l'importance de cette annonce, il faut rappeler la stratégie de gamme d'Anthropic. La société propose trois modèles de tailles différentes : Haiku (le plus compact), Sonnet (milieu de gamme) et Opus (le plus puissant). Sonnet occupe une position stratégique, offrant le meilleur compromis entre performances et coût d'exécution.
La taille d'un modèle, mesurée en paramètres, influence directement sa profondeur contextuelle et sa capacité à résoudre des problèmes complexes. Cependant, les modèles plus volumineux sont également plus lents et plus coûteux à exécuter. Claude Sonnet 4.5 semble avoir trouvé le point d'équilibre idéal pour les applications professionnelles.
Amélioration des comportements
Anthropic souligne également que Sonnet 4.5 présente une réduction des comportements problématiques observés dans les modèles précédents. La flagornerie excessive, la tendance à la tromperie ou l'encouragement involontaire de pensées délirantes auraient été significativement réduits.
Ces améliorations comportementales sont cruciales pour l'adoption professionnelle des modèles d'IA, particulièrement dans des secteurs où la fiabilité et l'objectivité sont primordiales.
Écosystème développeur renforcé
Parallèlement au lancement de Sonnet 4.5, Anthropic dévoile Claude Code 2.0, un agent en ligne de commande destiné aux développeurs, ainsi qu'un SDK Agent permettant de créer ses propres agents de codage IA.
L'entreprise introduit également des fonctionnalités pratiques comme l'exécution de code et la création de fichiers directement dans l'interface de conversation. Les utilisateurs peuvent désormais générer des feuilles de calcul, des présentations et des documents sans quitter l'interface de discussion.
Stabilité tarifaire malgré les améliorations
Malgré ces avancées significatives, Anthropic maintient les tarifs de son prédécesseur : 3 dollars par million de tokens en entrée et 15 dollars par million de tokens en sortie. Cette stabilité tarifaire pourrait constituer un avantage concurrentiel important face à la tendance générale à l'augmentation des coûts dans le secteur.
Perspectives et réactions
Simon Willison, développeur logiciel expérimenté et observateur reconnu des modèles d'IA, a partagé ses premières impressions : « Mes impressions initiales étaient qu'il semblait meilleur pour le code que GPT-5-Codex, qui était mon modèle de codage préféré depuis son lancement il y a quelques semaines. »
Il note cependant la rapidité d'évolution du secteur, avec l'arrivée imminente présumée de Gemini 3, qui pourrait remettre en cause la suprématie temporaire de Sonnet 4.5.
À retenir
- Endurance exceptionnelle : maintien de la concentration sur 30 heures de tâches complexes
- Supériorité technique : meilleures performances que OpenAI et Google en programmation
- Comportement amélioré : réduction de la flagornerie et autres défauts comportementaux
- Stabilité tarifaire : mêmes prix que la version précédente malgré les améliorations
- Écosystème enrichi : nouveaux outils développeurs et fonctionnalités pratiques