Claude Opus 4.6 : le nouveau modèle d’Anthropic vise (très) haut avec des records en code agentique

Anthropic a officialisé Claude Opus 4.6 le 5 février 2026, présenté comme la mise à niveau de référence de sa gamme « Opus ». Au programme : une fenêtre de contexte d’1 million de tokens (en bêta), un net bond sur les tâches de programmation agentique, et une offensive assumée sur les usages « bureau » via des intégrations PowerPoint et Excel.

Un cap franchi sur la programmation : Opus 4.6 prend la tête de Terminal-Bench

Anthropic insiste sur un point : Opus 4.6 n’est pas juste “un peu meilleur”, il serait plus méthodique, plus endurant sur les tâches longues, et plus fiable dans de grosses bases de code, avec une meilleure relecture (capacité à repérer ses propres erreurs). En clair : moins de dérives, moins d’oublis, et davantage de cohérence quand le projet s’étale sur des dizaines (ou centaines) de fichiers.

Les chiffres mis en avant sont parlants :

  • Terminal-Bench 2.0 : 65,4%, un score présenté comme le meilleur du secteur sur l’évaluation “code agentique”.

  • Sur GDPval-AA (tâches pro type finance/juridique), Opus 4.6 grimpe à 1606 Elo, soit 144 points d’avance sur GPT-5.2 sur des scénarios professionnels.

  • Le modèle se distingue aussi sur BrowseComp, un test orienté “recherche difficile”, qui mesure la capacité à trouver des informations complexes sur le web.

Côté retours terrain, plusieurs acteurs de l’écosystème développement évoquent une IA plus “tenace” sur les problèmes complexes, plus utile en revue de code et plus constante sur les tâches longues — là où d’autres modèles finissent par décrocher.

1 million de tokens de contexte : la grosse nouveauté (et un message aux pros)

C’est une première pour la classe Opus : 1 million de tokens de contexte, annoncé en bêta. Concrètement, cela vise les cas d’usage où l’on doit “charger” énormément de matière d’un coup : dépôts entiers, documentation interne, contrats, logs, rapports, bases de connaissances, etc.

Anthropic avance aussi des progrès nets sur la robustesse en long contexte, avec de meilleurs résultats sur des benchmarks de lecture/compréhension longue. L’objectif affiché : réduire le “context rot”, cette dégradation qui finit par saboter les échanges lorsqu’ils deviennent trop longs ou trop denses.

« Agent teams » : Claude Code passe au travail en parallèle

Autre axe majeur : les “équipes d’agents” dans Claude Code (fonctionnalité annoncée en bêta). L’idée : au lieu d’un seul assistant qui exécute tout en série, plusieurs agents se répartissent les sous-tâches, se coordonnent et avancent en parallèle sur un même projet.

En pratique, ce modèle multi-agents ouvre la porte à une organisation plus “humaine” : un agent explore, un autre code, un troisième teste, un quatrième fait la revue et propose des corrections. Sur le papier, c’est exactement le genre de mécanique qui peut faire passer certains projets de “longues sessions” à des itérations bien plus rapides.

PowerPoint et Excel : Anthropic vise aussi les métiers non techniques

Anthropic ne cache plus son ambition : sortir du seul terrain des développeurs. Claude Opus 4.6 a été spécifiquement entraîné pour mieux produire des livrables “bureautiques”, notamment :

  • Claude in Excel : meilleure compréhension des tableaux “brouillons” et de structures implicites, sans devoir tout expliciter à l’IA.

  • Claude in PowerPoint (avant-première) : création de présentations en respectant vos couleurs, polices et mise en page habituelles.

Ces fonctionnalités sont annoncées comme réservées aux offres Max, Team et Enterprise, avec une logique claire : faire de Claude un collègue de bureau capable de produire des documents prêts à l’emploi avec moins d’itérations correctives.

Prix inchangés malgré le bond : un signal concurrentiel

Point notable : pas de hausse de tarifs malgré les améliorations annoncées. Les prix communiqués restent de 5 $ pour traiter 1 million de tokens en entrée (équivalent d’un gros roman) et 25 $ pour en générer 1 million en sortie. Une stratégie agressive pour rester au contact d’une concurrence très active.

Le modèle est disponible via l’API, avec une intégration annoncée chez plusieurs grands fournisseurs cloud.

API : “adaptive thinking” et compaction de contexte pour tenir la distance

Pour les développeurs et équipes produit, Anthropic met aussi en avant des nouveautés pensées pour les usages intensifs :

  • Adaptive thinking : Claude ajuste son “temps de réflexion” en fonction de la difficulté de la demande, avec plusieurs niveaux d’intensité.

  • Compaction contextuelle : quand la mémoire commence à saturer, le modèle résume automatiquement les échanges plus anciens pour libérer de la place, sans casser le fil de la conversation.

Sécurité : Anthropic promet une batterie de tests renforcée

Enfin, Anthropic affirme avoir renforcé son dispositif de sûreté : nouvelles évaluations, attention particulière au bien-être des utilisateurs, et tests plus poussés sur la capacité du modèle à refuser des requêtes risquées. L’objectif : garder un profil de sécurité élevé, malgré une IA plus puissante et plus autonome.

Ce qu’il faut retenir

  • Claude Opus 4.6 arrive avec une priorité claire : agents + long contexte + performance en code.

  • 1M tokens (bêta) et agent teams visent les projets longs, lourds et multi-étapes.

  • Les benchmarks annoncés le placent en tête sur le code agentique et très haut sur les tâches professionnelles.

  • Anthropic élargit la cible avec Excel et PowerPoint pour les usages “bureau”.

  • Tarifs inchangés : 5 $ / 25 $ par million de tokens (entrée / sortie).