Anthropique lance Claude Sonnet 4.6, son modèle d'intelligence artificielle le plus efficace pour la gamme Sonnet, qui correspond aux capacités de l'Opus 4.5 sorti en novembre tout en conservant l'échelle tarifaire Sonnet de 3 à 15 dollars par million de jetons. Les utilisateurs en accès anticipé déclarent préférer Sonnet 4.6 à Opus 4.5 dans 59% des cas, bousculant (déjà) la hiérarchie établie trois mois plus tôt.

Claude Sonnet 4.6 est là
Anthropic affirme que Sonnet 4.6 améliore simultanément le code, l'informatique, le raisonnement en contexte long, la planification des agents, le travail documentaire et la conception. La fenêtre contextuelle atteint 1 million de tokens en version bêta. Dans Claude Code, 70% des utilisateurs le préfèrent à Sonnet 4.5. Par rapport à l'Opus 4.5, il réduit considérablement la sur-ingénierie, la « paresse », les hallucinations et améliore le suivi des instructions et l'exécution en plusieurs étapes.
Box mesure un gain de 15 points sur les questions et réponses complexes par rapport à Sonnet 4.5. Sur OfficeQA (documents d'entreprise), Sonnet 4.6 égale Opus 4.6, le modèle d'IA qui a vu le jour il y a deux semaines. En assurance, il atteint une précision de 94% sur les devis et les premiers avis de sinistre. Sur Vending-Bench Arena (simulation d'entreprise compétitive), il a investi massivement pendant dix mois simulés puis a pivoté vers la rentabilité, terminant largement en tête. Les utilisateurs signalent des résultats visuels plus soignés avec de meilleurs rendus et animations, et moins d'itérations pour atteindre la production.
Voici les benchmarks Sonnet 4.6 fournis par Anthropic, notamment pour faire une comparaison avec d'autres modèles d'IA et ceux de la concurrence (Google Gemini 3 Pro et OpenAI GPT-5.2).

Encore des progrès pour le modèle IA
Anthropic a proposé une utilisation générale de l'informatique en octobre 2024, alors qualifiée d'expérimentale. OSWorld, qui teste des centaines de tâches sur des logiciels réels (Chrome, LibreOffice, VS Code) via une souris et un clavier virtuels sans API spéciales, documente des gains constants sur 16 mois. Les premiers testeurs observent des capacités humaines à naviguer dans des feuilles de calcul complexes, à remplir des formulaires Web en plusieurs étapes et à se coordonner sur plusieurs onglets. Le modèle reste en retard sur les humains les plus qualifiés, mais le rythme rend l'utilisation de l'ordinateur utile pour un plus large éventail de tâches professionnelles.
Anthropic a également renforcé la résistance aux injections instantanées cachées sur les sites Web. Les tests montrent que Sonnet 4.6 représente une amélioration majeure par rapport à Sonnet 4.5 et fonctionne de manière similaire à Opus 4.6. Les chercheurs en sécurité concluent qu'il a « un personnage globalement chaleureux, honnête, prosocial et parfois drôle, des comportements de sécurité très forts et aucun signe d'inquiétude majeure concernant des formes critiques de désalignement ».
Il est disponible maintenant
Sonnet 4.6 est disponible sur toutes les offres Claude (gratuit/Pro comme modèle par défaut), Claude Cowork, Claude Code, l'API et les plateformes cloud. Le modèle d'IA prend en charge à la fois la pensée adaptative et la pensée étendue, ainsi que la compression du contexte en version bêta. Cela résume automatiquement les contextes plus anciens à mesure que les conversations approchent de leurs limites, augmentant ainsi la longueur effective du contexte.






