OpenAI a lancé le 5 février 2025 GPT-5.3-Codex, un modèle d’IA centré sur la programmation. Il se présente comme le modèle agentique le plus performant d’OpenAI. Il déploie des optimisations matérielles et logicielles. Il promet 25 % de vitesse en plus par rapport à GPT-5.2.
Un bond vers l’agentique de bout en bout
OpenAI combine les compétences de codage de GPT-5.2-Codex et le raisonnement de GPT-5.2. Le résultat devient un agent capable de gérer l’ensemble du cycle logiciel. Ainsi, GPT-5.3-Codex produit du code, débogue, déploie et surveille des applications. Il rédige aussi des PRD, conçoit des tests et mesure les performances.
En outre, le modèle prend en charge des prompts peu précis. Par exemple, une simple instruction « créer un site web » génère, par défaut, un site plus complet et fonctionnel.
- Vitesse et efficacité : gain de 25 % et consommation réduite de jetons.
- Pilotage en cours de tâche : intervention sans perte de contexte pendant l’exécution.
- Tâches complexes : création d’applications et jeux, pilotage complet d’un poste informatique.
- Auto-amélioration : versions précoces ont contribué au débogage et à l’optimisation du modèle.
Performances mesurées par des benchmarks
OpenAI publie des scores qui placent GPT-5.3-Codex en tête sur plusieurs tests. Les scores reflètent la capacité de l’IA à coder et à exécuter des tâches agentiques prolongées.
- SWE-Bench Pro : 57 %.
- Terminal-Bench 2.0 : 77,3 %, contre 65,4 % pour Claude Opus 4.6.
- OSWorld (PC) : 64,7 % (vérifié).
- GDPVal : égal à GPT-5.2.
Ces benchmarks couvrent codage, opérations terminales et tâches professionnelles réelles. Ils incluent des évaluations sur 44 professions, comme la préparation de présentations et le travail sur des feuilles de calcul.
Confrontation immédiate avec Anthropic
OpenAI a dévoilé GPT-5.3-Codex peu après l’annonce de Claude Opus 4.6 d’Anthropic. Des observateurs notent une réponse quasi immédiate d’OpenAI. Certains évoquent un délai d’environ vingt minutes.
Les deux modèles convergent vers des capacités agentiques avancées. Toutefois, chaque modèle montre ses forces.
- GPT-5.3-Codex : vitesse d’exécution, ingéniérie logicielle et utilisation d’outils longue durée.
- Claude Opus 4.6 : gestion de contextes ultra-longs, raisonnement adaptatif et conformité réglementaire.
Des tests indépendants montrent Opus plus créatif sur des tâches multidisciplinaires. En revanche, Codex reste plus rapide et plus constant sur le codage autonome.
Architecture et partenariat matériel
OpenAI optimise l’inférence et l’infrastructure. L’entreprise collabore avec Nvidia. Les systèmes utilisent des GPU GB200 NVL72. Ces optimisations expliquent en partie l’amélioration de la vitesse.
Par ailleurs, OpenAI annonce une application Mac dédiée à Codex. Les développeurs obtiennent l’accès via l’interface Codex ou via l’API.
Disponibilité et conditions d’accès
GPT-5.3-Codex devient disponible immédiatement pour les abonnés payants de ChatGPT. Les équipes de développement peuvent aussi l’appeler via l’API. OpenAI indique qu’une version GPT-5.3 générale arrivera prochainement pour le grand public.
Impacts observables
Le lancement intensifie la compétition entre acteurs de l’IA. Les modèles deviennent plus autonomes et mieux intégrés aux chaînes de développement logiciel. De plus, l’auto-participation au débogage marque une étape dans l’autonomie des systèmes de codage.
Cependant, les chiffres restent la meilleure base pour juger des progrès. Les benchmarks confirment des gains mesurables en codage et en exécution d’agents.
Conclusion
GPT-5.3-Codex introduit des capacités agentiques de bout en bout et un gain de vitesse notable. Il cible avant tout les développeurs et les workflows logiciels. En parallèle, Claude Opus 4.6 conserve l’avantage sur les contextes ultra-longs et la polyvalence.
Ainsi, la compétition technique entre OpenAI et Anthropic favorise l’accélération des outils. Les entreprises et les équipes produit devront évaluer ces modèles selon leurs besoins précis.








