Le nouveau modèle d'IA d'Anthropic, plus agentique et plus abordable

Anthropic a lancé Claude Sonnet 5, une nouvelle version de son modèle d’intelligence artificielle. Plus performant dans les tâches agentiques, mais aussi dans le raisonnement, la programmation et l’utilisation des outils, il se rapproche désormais de Claude Opus 4.8 tout en étant proposé à un prix plus abordable. Le modèle est disponible sur toutes les offres Claude ainsi que via l’API Anthropic.

Claude Sonnet 5 gagne en autonomie

Avec Claude Sonnet 5, Anthropic met avant tout en avant les capacités agentiques de son modèle. Concrètement, il est capable de planifier plusieurs actions, d’utiliser des outils comme un navigateur web ou un terminal, puis d’exécuter des tâches complexes avec beaucoup moins d’intervention de l’utilisateur. Selon l’entreprise, ce niveau d’autonomie permet désormais de réaliser certaines tâches qui nécessitaient jusqu’ici un modèle Opus, plus puissant, mais aussi plus cher.

Cette nouvelle version progresse également dans le raisonnement, la programmation et l’utilisation des outils. Anthropic indique également que Claude Sonnet 5 vérifie plus souvent son propre travail avant de donner une réponse et qu’il est plus capable de mener à bien les tâches qui lui sont assignées.

Le modèle propose enfin plusieurs niveaux d’effort afin de privilégier la rapidité ou au contraire de consacrer plus de temps à la résolution des tâches les plus complexes.

Spectacles proches de Claude Opus 4.8

Anthropic a publié les résultats de plusieurs benchmarks comparant Claude Sonnet 5 à Claude Sonnet 4.6 et Claude Opus 4.8. Ces différents tests évaluent notamment les capacités du modèle en programmation, en raisonnement, dans l’utilisation d’outils ou encore lors de tâches nécessitant sa connaissance. Les notes obtenues montrent que Claude Sonnet 5 se rapproche de l’Opus 4.8 sur plusieurs évaluations tout en prenant une avance plus marquée sur Claude Sonnet 4.6.

Comparaison des performances de Claude Sonnet 5, Claude Sonnet 4.6 et Claude Opus 4.8 sur plusieurs benchmarks d'intelligence artificielle

C’est sur Terminal Bench 2.1 que la progression est la plus significative. Claude Sonnet 5 obtient une note de 80,4 %, contre 67 % pour Claude Sonnet 4.6, et se rapproche ainsi de l’Opus 4.8 (82,7 %).

Au Dernier examen de l’humanité avec outils, l’écart est également très faible avec 57,4% pour Claude Sonnet 5, contre 57,9% pour l’Opus 4.8.

Enfin, sur GDPval-AA v2, dédié aux tâches nécessitant une connaissance du modèle, Claude Sonnet 5 obtient même un score légèrement supérieur à celui de l’Opus 4.8 (1 618 contre 1 615).

Un meilleur rapport performance/prix

L’autre point avancé par Anthropic est le rapport entre les performances de Claude Sonnet 5 et son coût d’utilisation. Selon l’entreprise, le modèle est capable de rivaliser avec Claude Opus 4.8 sur certaines tâches tout en restant nettement moins cher. Les développeurs peuvent également choisir différents niveaux d’effort pour adapter le temps de réflexion du modèle à leurs besoins.

Le graphique publié par Anthropic montre que Claude Sonnet 5 peut atteindre différents niveaux de performance selon le niveau d’effort choisi. Avec les niveaux les plus élevés, il se rapproche même du Claude Opus 4.8 sur certains benchmarks, tout en conservant un coût moindre.

Graphique comparant les performances au coût de Claude Sonnet 5, Claude Sonnet 4.6 et Claude Opus 4.8 par niveau d'effort

Jusqu’au 31 août 2026, Claude Sonnet 5 est proposé au prix de 2 $ par million de jetons d’entrée et de 10 $ par million de jetons de sortie.

À partir du 1er septembre 2026, ces prix passeront respectivement à 3 $ et 15 $ par million de jetons.

À titre de comparaison, Claude Opus 4.8 est facturé 5 $ par million de jetons en entrée et 25 $ par million de jetons en sortie.

Modèle	Jetons d’entrée	Jetons de sortie
Claude Sonnet 5 (jusqu’au 31 août 2026)	2 $/million	10 $/million
Claude Sonnet 5 (à partir du 1er septembre 2026)	3 $/million	15 $/million
Claude Opus 4.8	5 $/million	25 $/million

Un modèle plus sûr, mais toujours limité en cybersécurité

Anthropic affirme avoir amélioré la sécurité de Claude Sonnet 5 par rapport à la version précédente. Selon les tests réalisés par l’entreprise, le modèle refuse plus facilement les requêtes malveillantes, résiste mieux aux attaques par injection rapide et génère moins d’hallucinations que Claude Sonnet 4.6. En revanche, il obtient toujours des résultats légèrement moins bons que Claude Opus 4.8 et Claude Mythos Preview sur certains tests liés à des comportements indésirables.

Comparaison des comportements indésirables de Claude Sonnet 5, Claude Sonnet 4.6, Claude Opus 4.8 et Claude Mythos Preview

Anthropic précise également que Claude Sonnet 5 n’a pas été formé pour développer des exploits informatiques. Les évaluations des vulnérabilités de Firefox montrent qu’il n’a jamais réussi à produire un exploit fonctionnel. Il obtient cependant un score légèrement supérieur à Claude Sonnet 4,6 lorsqu’il s’agit de réussir partiellement ce type de tâche, une différence qu’Anthropic explique par la progression générale du modèle.