Anthropic, la société de recherche en intelligence artificielle, a officiellement présenté Claude Sonnet 4.5, son dernier modèle spécialisé dans le développement logiciel et les tâches complexes de type agent. La start-up n'y va pas par quatre chemins : elle qualifie son nouveau-né de « meilleur modèle de codage au monde ».

Une spécialisation affirmée dans le développement logiciel

Claude Sonnet 4.5 représente une évolution significative par rapport à son prédécesseur, avec des améliorations marquées en raisonnement, en mathématiques et dans la gestion de tâches de longue durée. Le modèle est désormais disponible via l'API Claude, avec une tarification inchangée par rapport à Sonnet 4 : 3 dollars par million de tokens pour un usage standard et 15 dollars pour un usage étendu.

« Claude Sonnet 4.5 est le meilleur modèle de codage au monde. C'est également le modèle le plus performant pour créer des agents complexes », affirme Anthropic dans son communiqué officiel. La société met également en avant ses capacités améliorées dans l'utilisation des ordinateurs et les progrès substantiels en raisonnement et mathématiques.

Des performances record sur les benchmarks

Les résultats des tests standardisés confortent les affirmations d'Anthropic. Claude Sonnet 4.5 obtient les meilleurs scores jamais enregistrés sur le benchmark SWE-bench Verified, qui évalue les compétences en codage logiciel réel. Sur OSWorld, un autre benchmark dédié aux tâches informatiques pratiques, le modèle atteint 61,4 %, contre 42,2 % pour la version précédente, soit une amélioration de près de 20 points.

Les premiers retours utilisateurs confirment ces performances impressionnantes, avec des améliorations notables dans divers domaines spécialisés comme la finance, le droit, la médecine et les sciences techniques (STEM).

Nouvelles fonctionnalités pour les développeurs

Anthropic a enrichi son écosystème avec plusieurs innovations destinées aux développeurs :

  • L'édition de contexte et des outils de mémoire pour supporter les tâches longues
  • L'exécution de code et la création de fichiers directement dans les conversations
  • Claude Code, qui inclut désormais des points de contrôle pour sauvegarder la progression
  • Une interface terminal rafraîchie et une extension native pour VS Code
  • Le SDK Agent, qui fournit l'infrastructure utilisée en interne pour construire Claude Code
« Le SDK Agent vous donne les mêmes fondations pour construire quelque chose d'aussi performant, quel que soit le problème que vous résolvez », explique un porte-parole d'Anthropic.

Un focus maintenu sur la sécurité

Malgré ces avancées techniques, Anthropic maintient son engagement en matière de sécurité. Le modèle respecte le cadre AI Safety Level 3, avec des classificateurs pour signaler les contenus potentiellement dangereux. La société note également des réductions significatives des comportements indésirables comme la flatterie, la tromperie et la recherche de pouvoir.

« Nous avons constaté des réductions dans les comportements non alignés tels que la flagornerie, la tromperie et la recherche de pouvoir », précise l'entreprise.

Une préversion temporaire pour tester en conditions réelles

Anthropic propose également une préversion de recherche temporaire baptisée « Imagine with Claude », qui permet aux utilisateurs de voir le modèle générer du logiciel en temps réel. Disponible pendant cinq jours pour les abonnés Max, cette fonctionnalité offre un aperçu concret des capacités du modèle.

Parallèlement, l'entreprise a lancé l'extension Claude pour Chrome, actuellement accessible aux utilisateurs Max sur liste d'attente.

Impact sur le marché des assistants de codage

Le lancement de Claude Sonnet 4.5 intervient dans un marché des assistants de codage IA de plus en plus concurrentiel. Avec ses performances revendiquées sur les benchmarks et ses nouvelles fonctionnalités, Anthropic positionne clairement son modèle comme une alternative sérieuse aux solutions existantes.

La stratégie de tarification inchangée pourrait également constituer un avantage compétitif, permettant aux entreprises déjà utilisatrices de bénéficier des améliorations sans augmentation de coût.

À retenir

  • Claude Sonnet 4.5 est présenté comme le modèle de codage le plus performant au monde
  • Améliorations significatives en raisonnement, mathématiques et gestion de tâches longues
  • Scores records sur SWE-bench Verified et OSWorld (61,4 %)
  • Nouvelles fonctionnalités : édition de contexte, mémoire, exécution de code intégrée
  • Tarification maintenue à 3 $ / million de tokens (standard)
  • Respect du cadre de sécurité AI Safety Level 3
  • Préversion « Imagine with Claude » disponible pour les abonnés Max