Anthropic mise sur une IA plus honnête

Quarante et un jours. C’est le temps qu’il a fallu à Anthropic pour passer de l’Opus 4.7 à l’Opus 4.8, un rythme inhabituellement rapide pour l’entreprise.

Il faut dire que les annonces s’enchaînent dans le secteur de l’intelligence artificielle. OpenAI a récemment lancé Codex, Google a sorti Gemini 3.5 Flash et Anthropic ne compte clairement pas être en reste.

L’entreprise a déployé Claude Opus 4.8une mise à jour de son modèle le plus puissant accessible au grand public.

Le modèle progresse sur plusieurs benchmarks, mais Anthropic met surtout en avant un aspect moins habituel : l’honnêteté. Claude serait désormais plus enclin à reconnaître ses erreurs et ses zones d’incertitude plutôt que d’affirmer quelque chose avec assurance lorsque les preuves font défaut.

Anthropic veut que Claude soit plus prudent en cas de doute

Dans son annonce, Anthropic explique que les modèles d’intelligence artificielle ont parfois tendance à tirer des conclusions trop rapidement. Même lorsqu’ils disposent de peu de preuves, ils peuvent présenter leurs réponses avec un niveau de confiance élevé, donnant l’impression que tout a été vérifié alors que ce n’est pas toujours le cas.

Avec Claude Opus 4.8, l’entreprise affirme avoir travaillé sur ce comportement. Le modèle serait désormais mieux à même de signaler ses doutes, de reconnaître les limites de ses connaissances ou encore d’indiquer quand une partie de son raisonnement mérite d’être vérifiée.

Anthropic cite notamment des tests réalisés dans le domaine de la programmation. Selon l’entreprise, Claude Opus 4.8 aurait environ quatre fois moins de chances que son prédécesseur de laisser passer un défaut dans le code qu’il a lui-même généré sans le signaler.

En d’autres termes, l’objectif n’est pas seulement de produire de meilleures réponses, mais aussi de mieux reconnaître lorsqu’elles peuvent contenir des erreurs. Une approche qui pourrait s’avérer particulièrement utile pour les développeurs, mais aussi pour tous les utilisateurs qui s’appuient quotidiennement sur l’IA pour effectuer des recherches ou obtenir de l’aide sur des sujets complexes.

Claude Opus 4.8 progresse sur plusieurs benchmarks, à une exception près

Au-delà de cette question d’honnêteté, Claude Opus 4.8 s’impose dans presque tous les benchmarks présentés par Anthropic face à ses concurrents directs.

En codage agent (SWE-Bench Pro), il atteint 69,2% contre 58,6% pour GPT-5.5 et 54,2% pour Gemini 3.1 Pro.

Sur l’utilisation autonome d’un ordinateur (OSWorld-Verified), il obtient 83,4% contre 78,7% pour GPT-5.5. En travail de connaissances, l’écart est encore plus marqué par rapport à Gemini 3.1 Pro.

Il y a cependant un inconvénient. Sur Terminal-Bench 2.1, qui teste les capacités de programmation en ligne de commande, GPT-5.5 devance Opus 4.8 avec 78,2 % contre 74,6 %. Anthropic l’indique d’ailleurs dans son propre tableau comparatif, détail suffisamment rare pour être souligné.

A noter également que Gemini 3.5 Flash, sorti quelques jours avant Opus 4.8, n’apparaît pas dans le comparatif officiel, un choix qui n’est sans doute pas anodin.

Tableau comparatif des performances de Claude Opus 4.8 par rapport à Claude Opus 4.7, GPT-5.5 et Gemini 3.1 Pro sur plusieurs benchmarks d'intelligence artificielle

Des centaines de sous-agents pour les tâches les plus complexes

Anthropic a également profité de cette annonce pour présenter une nouvelle fonctionnalité baptisée « Dynamic Workflows », actuellement disponible en aperçu de recherche dans Claude Code.

L’idée est de permettre à Claude de diviser automatiquement une tâche importante en plusieurs sous-tâches exécutées en parallèle par des centaines de sous-agents.

Le modèle peut ainsi analyser un projet, planifier les différentes étapes, répartir le travail entre plusieurs agents spécialisés, puis vérifier les résultats avant de produire une réponse finale.

Selon Anthropic, cette approche pourrait notamment faciliter des migrations de code à grande échelle ou certains projets impliquant plusieurs centaines de milliers de lignes de code.

Actuellement, Dynamic Workflows n’est disponible que dans Claude Code pour les abonnés Enterprise, Team et Max.

Sur le papier, c’est probablement l’une des nouveautés les plus ambitieuses de cette mise à jour, même s’il faudra attendre les premiers retours pour juger de son efficacité sur des projets réels.

Les utilisateurs peuvent désormais choisir le niveau d’effort

Anthropic a également ajouté un nouveau paramètre pour contrôler le niveau d’effort que Claude consacre à une tâche.

Les utilisateurs peuvent désormais choisir entre plusieurs niveaux. Plus l’effort requis est élevé, plus le modèle mettra de temps à analyser le problème avant d’y répondre. À l’inverse, un niveau d’effort inférieur permet des réponses plus rapides tout en consommant moins de jetons.

Cette fonctionnalité est disponible directement dans l’interface de Claude et n’est pas sans rappeler des approches déjà proposées par certains concurrents, notamment OpenAI avec ChatGPT et Codex.

De nouvelles fonctionnalités également pour les développeurs

Anthropic a également apporté quelques changements pour les développeurs. L’API accepte désormais l’ajout d’instructions système pendant la session, sans casser le cache des invites. Une évolution technique qui devrait simplifier la gestion des agents autonomes et des workflows complexes.

L’entreprise a également revu la tarification de son mode rapide. Le prix standard de Claude Opus 4.8 reste inchangé par rapport à l’Opus 4.7, avec un coût de 5 $ par million de jetons en entrée et de 25 $ par million de jetons en sortie.

En revanche, le mode rapide bénéficie d’une réduction de prix significative. Capable de fonctionner jusqu’à 2,5 fois plus vite, il est désormais facturé 10 $ par million de jetons d’entrée et 50 $ par million de jetons de sortie, soit trois fois moins cher que les générations de modèles précédentes.

Les modèles Mythos bientôt accessibles à tous

Anthropic a également profité de cette annonce pour évoquer l’arrivée prochaine des modèles « Mythos ».

Jusqu’à présent, ces modèles étaient réservés à un nombre limité d’organisations pour des travaux liés à la cybersécurité. L’entreprise a notamment expliqué que leurs capacités nécessitaient la mise en place de protections supplémentaires avant un déploiement plus large.

Anthropic affirme désormais faire des progrès rapides sur ces mécanismes de sécurité et prévoit de mettre les modèles de classe Mythos à la disposition de tous ses clients dans les semaines à venir.

Peu de détails techniques ont été communiqués pour le moment, mais cette annonce pourrait à terme avoir un impact à plus long terme que le lancement de Claude Opus 4.8 lui-même.

Source : Anthropique