Claude Code utilise trois familles de modèles Anthropic : Opus (le plus capable), Sonnet (équilibre coût/qualité) et Haiku (le plus rapide). Choisir le bon pour chaque tâche change radicalement votre coût et la qualité du résultat. Cette page vous donne le comparatif chiffré actualisé (juin 2026), le bon réflexe par cas d'usage, et les leviers d'optimisation (prompt caching, Batch API, changement de modèle en cours de session) pour ne pas payer Opus là où Sonnet ou Haiku suffirait.
Ce que vous allez apprendre
Section intitulée « Ce que vous allez apprendre »- Distinguer Opus 4.8 / Sonnet 4.6 / Haiku 4.5 en capacités, prix et latence
- Choisir le modèle adapté à chaque type de tâche Claude Code
- Estimer votre coût mensuel avec 3 scénarios chiffrés
- Changer de modèle en cours de session avec
/model - Optimiser via prompt caching et Batch API pour diviser les coûts par 5 à 10
- Identifier les modèles encore utiles parmi les legacy (Opus 4.7, Sonnet 4.5)
Vue d'ensemble des trois modèles actuels
Section intitulée « Vue d'ensemble des trois modèles actuels »Les modèles ci-dessous sont les modèles courants disponibles via Claude Code et la Claude API à la date du guide (juin 2026). Anthropic itère vite — vérifiez la page modèles officielle avant de citer des versions précises dans votre équipe.
| Critère | Claude Opus 4.8 | Claude Sonnet 4.6 | Claude Haiku 4.5 |
|---|---|---|---|
| Positionnement | Le plus capable | Le meilleur équilibre vitesse/intelligence | Le plus rapide, intelligence proche du frontier |
| Identifiant API | claude-opus-4-8 | claude-sonnet-4-6 | claude-haiku-4-5-20251001 (alias claude-haiku-4-5) |
| Prix input | 5 $ / MTok | 3 $ / MTok | 1 $ / MTok |
| Prix output | 25 $ / MTok | 15 $ / MTok | 5 $ / MTok |
| Context window | 1M tokens | 1M tokens | 200k tokens |
| Max output | 128k tokens | 64k tokens | 64k tokens |
| Latence relative | Modérée | Rapide | La plus rapide |
| Extended thinking | Non | Oui | Oui |
| Adaptive thinking | Oui | Oui | Non |
| Connaissance jusqu'à | Janvier 2026 | Août 2025 | Février 2025 |
| Priority Tier | Oui | Oui | Oui |
Les 3 modèles supportent : texte + images en entrée, capacités multilingues, et la vision. Tous sont disponibles via la Claude API, Claude Platform on AWS, Amazon Bedrock, Google Vertex AI et Microsoft Foundry.
Claude Opus 4.8 — le modèle premium
Section intitulée « Claude Opus 4.8 — le modèle premium »Description officielle Anthropic : « Anthropic's most capable model for complex reasoning and agentic coding ».
- Raisonnement complexe multi-étapes : architecture, refactoring cross-module, dépannage profond
- Agentic coding long-horizon : sessions Claude Code qui s'étalent sur des heures avec des dizaines de fichiers touchés
- 1M tokens de context window : peut lire un mono-repo de taille moyenne en une session
- Connaissance la plus récente (jan 2026) parmi les 3 modèles
- Le plus cher : 5 $/M input + 25 $/M output. Une session intensive peut atteindre plusieurs dollars.
- Latence modérée : pas adapté aux interactions rapides type pair-programming
- Tokenizer nouveau : ~35 % de tokens en plus que les anciens modèles pour le même texte → impact budget direct
- Pas d'extended thinking (la pause raisonnée explicite est désactivée pour Opus, qui utilise l'adaptive thinking à la place)
Quand l'utiliser dans Claude Code
Section intitulée « Quand l'utiliser dans Claude Code »- Refactoring touchant plus de 5-10 fichiers
- Audit architecture complète
- Dépannage de bugs subtils sur la concurrence, le typing ou les races conditions
- Génération de tests exhaustifs sur des fonctions complexes
- Sessions « interview moi pour spec » avant gros chantier (cf pattern Anthropic officiel)
Quand l'éviter
Section intitulée « Quand l'éviter »- Tâche unitaire courte (commit message, rename, ajout d'import) → Haiku suffit
- Exploration légère d'un fichier → Sonnet suffit largement
- Toute tâche scriptable / déterministe → utiliser des hooks ou des scripts directs
Claude Sonnet 4.6 — le défaut recommandé
Section intitulée « Claude Sonnet 4.6 — le défaut recommandé »Description officielle Anthropic : « The best combination of speed and intelligence ».
- Rapport qualité/prix imbattable : 3 $/M input + 15 $/M output (= 60 % moins cher qu'Opus pour ~90 % des cas d'usage)
- 1M tokens de context window (identique à Opus 4.8)
- Latence rapide : adapté aux sessions interactives
- Extended thinking activé : peut prendre du temps pour raisonner sur les passages complexes sans surcoût d'API
- Adaptive thinking également
- Moins fort qu'Opus sur le raisonnement long-horizon agentique pur
- Knowledge cutoff plus ancien (août 2025) que Opus 4.8 (janvier 2026)
Quand l'utiliser dans Claude Code
Section intitulée « Quand l'utiliser dans Claude Code »- La majorité des sessions de développement au quotidien
- Génération de code feature standard (CRUD, intégration API, transformations de données)
- Revue de PR
- Refactoring 1-5 fichiers
- Rédaction de tests sur des fonctions de complexité moyenne
- Documentation technique d'une zone du code
C'est le modèle que Claude Code utilise par défaut depuis Sonnet 4.5. Vous n'avez pas à le sélectionner explicitement dans 80 % des cas.
Claude Haiku 4.5 — le rapide
Section intitulée « Claude Haiku 4.5 — le rapide »Description officielle Anthropic : « The fastest model with near-frontier intelligence ».
- Le plus rapide des trois (latence minimale)
- Le moins cher : 1 $/M input + 5 $/M output (= 5 fois moins cher que Sonnet)
- Extended thinking disponible (point fort vs Haiku précédent)
- Intelligence proche du frontier : ne sacrifie pas la qualité sur les tâches simples
- Context window de 200k tokens seulement (vs 1M pour Opus/Sonnet) → pas adapté aux gros codebases en une session
- Pas d'adaptive thinking : moins efficient sur les raisonnements multi-étapes
- Knowledge cutoff plus ancien (février 2025)
Quand l'utiliser dans Claude Code
Section intitulée « Quand l'utiliser dans Claude Code »- Génération de messages de commit / descriptions de PR (la tâche par excellence)
- Formatage et fixes de lint quand vous voulez aller vite
- Génération de docstrings sur des fonctions existantes
- Renommages massifs (rename de symboles, conventions)
- Sessions courtes et focalisées sur un seul fichier
- Subagents spécialisés sur des tâches répétitives (cf subagents)
- Mode headless / Batch API pour traiter en lot des centaines de fichiers (cf headless)
Quand l'éviter
Section intitulée « Quand l'éviter »- Toute session impliquant la compréhension de plusieurs fichiers et leur logique d'interaction
- Architecture, design, choix techniques de fond
- Dépannage de bugs subtils
Comment changer de modèle dans Claude Code
Section intitulée « Comment changer de modèle dans Claude Code »En CLI interactif
Section intitulée « En CLI interactif »Dans une session Claude Code, tapez la commande slash :
/modelUn sélecteur s'affiche avec les modèles disponibles. Vous pouvez changer de modèle au milieu d'une session — le contexte est conservé, c'est le prochain tour qui utilise le nouveau modèle.
Via settings.json
Section intitulée « Via settings.json »Pour un projet, fixez le modèle par défaut dans .claude/settings.json (cf settings.json avancé) :
{ "model": "claude-sonnet-4-6"}Ou en variable d'environnement avant lancement :
ANTHROPIC_MODEL=claude-haiku-4-5 claudeSur les subagents
Section intitulée « Sur les subagents »Chaque subagent peut spécifier son propre modèle dans son fichier .claude/agents/<nom>.md :
---name: security-reviewerdescription: Reviews code for security vulnerabilitiestools: Read, Grep, Glob, Bashmodel: opus---Pattern recommandé : subagent reviewer en Opus, subagent explorer en Haiku (lecture rapide), session principale en Sonnet.
Coût réel : 3 scénarios chiffrés
Section intitulée « Coût réel : 3 scénarios chiffrés »Estimations basées sur les prix officiels Anthropic juin 2026, hors prompt caching.
Scénario 1 — Session debug rapide (Haiku)
Section intitulée « Scénario 1 — Session debug rapide (Haiku) »Vous demandez à Claude de corriger une faute de frappe et de relancer les tests.
- Input : ~3 000 tokens (intro + fichier de 2k tokens lu)
- Output : ~500 tokens (modif + commentaire)
Coût : (3000 × 1 + 500 × 5) / 1 000 000 = 0,0055 $ (~0,5 centime)
Sur 50 sessions de ce type dans le mois : 27 centimes.
Scénario 2 — Refactor multi-fichiers (Sonnet)
Section intitulée « Scénario 2 — Refactor multi-fichiers (Sonnet) »Vous demandez à Claude de refactorer un module de validation en plusieurs fichiers avec tests.
- Input : ~50 000 tokens (8 fichiers de ~5k tokens chacun + spec + discussion)
- Output : ~15 000 tokens (modifs étalées sur les fichiers + tests générés)
Coût : (50000 × 3 + 15000 × 15) / 1 000 000 = 0,375 $ (~37 centimes)
Sur 30 sessions de ce type par mois : 11,25 $.
Scénario 3 — Architecture complexe (Opus 4.8)
Section intitulée « Scénario 3 — Architecture complexe (Opus 4.8) »Vous demandez à Claude d'analyser une codebase Python de 30 fichiers et proposer une refonte architecturale.
- Input : ~200 000 tokens (codebase lue + discussion technique étendue)
- Output : ~30 000 tokens (analyse + plan + exemples de code)
Coût : (200000 × 5 + 30000 × 25) / 1 000 000 = 1,75 $ par session
Sur 10 sessions de ce type par mois : 17,50 $.
Total approximatif pour un développeur intensif
Section intitulée « Total approximatif pour un développeur intensif »| Profil | Estimation mensuelle |
|---|---|
| Usage léger (50 sessions Haiku + 10 Sonnet + 2 Opus) | ~5 $/mois |
| Usage régulier (50 Haiku + 30 Sonnet + 10 Opus) | ~30 $/mois |
| Usage intensif (100 Haiku + 60 Sonnet + 30 Opus) | ~80-100 $/mois |
Ces chiffres excluent le prompt caching qui peut diviser les coûts par 3 à 5 sur les sessions à long contexte stable.
Leviers de réduction de coût
Section intitulée « Leviers de réduction de coût »Prompt caching — le plus gros levier
Section intitulée « Prompt caching — le plus gros levier »Le prompt caching réutilise les portions répétées du contexte (CLAUDE.md, fichiers lus plusieurs fois, system prompt) au lieu de les re-facturer à chaque tour. Le multiplicateur est radical :
| Opération cache | Multiplicateur prix |
|---|---|
| Cache hit (lecture) | 0,1× le prix input standard |
| Cache write 5 min | 1,25× le prix input |
| Cache write 1 h | 2× le prix input |
Un cache hit coûte 10 % du prix d'un input standard. Sur une session où vous travaillez 1 heure sur le même CLAUDE.md + 5 mêmes fichiers, le cache s'amortit dès la 2e lecture (pour le cache 5 min) ou la 3e (pour le cache 1 h).
Claude Code active le prompt caching automatiquement dans la plupart des cas — vous n'avez rien à coder.
Batch API — pour le mode headless
Section intitulée « Batch API — pour le mode headless »Le Batch API offre 50 % de réduction sur input + output, en échange d'un traitement asynchrone (jusqu'à 24 h pour les très gros batchs, en pratique quelques minutes).
| Modèle | Batch input | Batch output |
|---|---|---|
| Opus 4.8 | 2,50 $/MTok | 12,50 $/MTok |
| Sonnet 4.6 | 1,50 $/MTok | 7,50 $/MTok |
| Haiku 4.5 | 0,50 $/MTok | 2,50 $/MTok |
À combiner avec le mode headless Claude Code pour traiter en lot des centaines de fichiers (migration framework, génération massive de docstrings, audit batch). Pas adapté à l'interactif.
Bon choix de modèle par tâche
Section intitulée « Bon choix de modèle par tâche »Le plus gros levier reste de ne pas utiliser Opus quand Sonnet ou Haiku suffit. Quelques règles concrètes :
- Sub-tâche « générer un message de commit » → forcer Haiku via subagent ou prompt
- Sub-tâche « explorer 50 fichiers pour cartographier » → subagent Haiku (le résultat est synthétisé pour Sonnet/Opus)
- Sub-tâche « designer l'architecture » → Opus
- Session quotidienne → Sonnet
Subagents pour explorations longues
Section intitulée « Subagents pour explorations longues »Les subagents tournent dans un contexte séparé et reportent leur synthèse à la session principale. Vous payez le coût de leur exploration en Haiku (si configuré) et vous récupérez juste 500-2000 tokens de synthèse dans votre session principale qui tourne en Sonnet.
Pattern type : « Use a Haiku subagent to map all callers of processOrder() across the codebase and report just the files and signatures ».
Modèles legacy : quand sont-ils encore pertinents ?
Section intitulée « Modèles legacy : quand sont-ils encore pertinents ? »Plusieurs anciens modèles restent disponibles, certains à des prix identiques aux nouveaux :
| Modèle | Statut | Pertinence |
|---|---|---|
| Opus 4.7, 4.6, 4.5 | Disponibles, mêmes prix qu'Opus 4.8 | Migrez vers 4.8, sauf cas particulier de régression sur votre workload |
| Sonnet 4.5 | Disponible, même prix que Sonnet 4.6 | Migrez vers 4.6 |
| Opus 4.1 | Déprécié, retiré le 5 août 2026 | Migration obligatoire vers Opus 4.8 |
| Sonnet 4 | Déprécié, retiré le 15 juin 2026 | Migration obligatoire vers Sonnet 4.6 |
| Opus 4 | Déprécié, retiré le 15 juin 2026 | Migration obligatoire vers Opus 4.8 |
| Haiku 3.5 | Retiré sauf sur Bedrock et Vertex AI | Migrez vers Haiku 4.5 sur la Claude API |
Vérifiez la page deprecations officielle avant toute décision de bascule.
Arbre de décision rapide
Section intitulée « Arbre de décision rapide »Tâche entrante → quel modèle ?
Est-ce une tâche unique courte (< 5 min de session) ?├─ Oui → Haiku 4.5└─ Non → Combien de fichiers Claude doit-il lire / modifier ? ├─ 1-3 fichiers → Sonnet 4.6 ├─ 4-10 fichiers → Sonnet 4.6 (Opus si bugs subtils) └─ 10+ fichiers OU architecture multi-modules → Opus 4.8Pour les subagents :
- Subagent d'exploration / mapping → Haiku 4.5
- Subagent de génération standard → Sonnet 4.6
- Subagent de revue de sécurité ou audit complexe → Opus 4.8
Fast mode — la pédale d'accélérateur (preview)
Section intitulée « Fast mode — la pédale d'accélérateur (preview) »Le Fast mode (research preview) offre une latence très significativement réduite sur Opus, au prix d'un surcoût :
| Modèle | Input fast | Output fast |
|---|---|---|
| Opus 4.6 / 4.7 | 30 $/MTok | 150 $/MTok |
| Opus 4.8 | 10 $/MTok | 50 $/MTok |
Fast mode est utile quand vous attendez vraiment la réponse Opus en interactif. Pour le mode headless / CI, restez sur le pricing standard ou Batch API.
Questions fréquentes
Section intitulée « Questions fréquentes »Comment savoir quel modèle Claude Code utilise actuellement ?
Section intitulée « Comment savoir quel modèle Claude Code utilise actuellement ? »Dans une session interactive, tapez /model pour voir le modèle actif et changer. Dans le mode headless claude -p, vous pouvez passer --model <id> pour forcer une version précise.
Puis-je changer de modèle au milieu d'une session ?
Section intitulée « Puis-je changer de modèle au milieu d'une session ? »Oui, /model permet de basculer sans perdre le contexte. Le tour suivant utilise le nouveau modèle.
Quel modèle dans Claude Code pour VS Code ?
Section intitulée « Quel modèle dans Claude Code pour VS Code ? »Identique au CLI : même selector /model, même fichier .claude/settings.json, même comportement par défaut (Sonnet 4.6).
Combien je vais payer par mois en usage régulier ?
Section intitulée « Combien je vais payer par mois en usage régulier ? »Voir les scénarios chiffrés plus haut. À titre indicatif :
- Usage léger : 5-10 $/mois
- Usage régulier : 25-40 $/mois
- Usage intensif : 80-150 $/mois
Pour réduire fortement, activez le prompt caching (automatique chez Claude Code) et basculez en Haiku ce qui peut l'être.
Y a-t-il un fallback automatique si Opus est saturé ?
Section intitulée « Y a-t-il un fallback automatique si Opus est saturé ? »Anthropic propose les Priority Tiers sur les 3 modèles. Claude Code ne fait pas de fallback silencieux entre modèles — vous gardez le modèle choisi.
Le nouveau tokenizer Opus 4.7+ change quoi pour moi ?
Section intitulée « Le nouveau tokenizer Opus 4.7+ change quoi pour moi ? »Pour un même texte, Opus 4.7+ peut consommer jusqu'à 35 % de tokens en plus que les modèles précédents. En contrepartie, il est plus performant sur de nombreuses tâches. À garder en tête pour les estimations de coût : un budget mensuel calculé sur Opus 4.5 peut être insuffisant sur Opus 4.8.
Quel modèle pour des tâches éducatives ou exploration de code source open source ?
Section intitulée « Quel modèle pour des tâches éducatives ou exploration de code source open source ? »Haiku 4.5 suffit largement pour explorer une codebase peu familière (lecture + Q&A). Passez à Sonnet 4.6 quand vous commencez à modifier réellement.
Existe-t-il un modèle Claude offline / local ?
Section intitulée « Existe-t-il un modèle Claude offline / local ? »Non. Claude Code dépend de l'API Anthropic. Pour du local, regardez Ollama avec des modèles open-source (Llama, Mistral) — au prix d'une qualité de modèle significativement moindre que Claude.
À retenir
Section intitulée « À retenir »- 3 modèles courants en juin 2026 : Opus 4.8 (complexe), Sonnet 4.6 (équilibre), Haiku 4.5 (rapide).
- Sonnet 4.6 est le défaut de Claude Code et couvre 80 % des cas.
- Opus 4.8 coûte 5× Haiku sur l'output — à réserver aux tâches qui en ont vraiment besoin.
- Prompt caching activé par défaut dans Claude Code : 10 % du prix input sur les cache hits.
- Batch API à -50 % pour les opérations massives en mode headless.
- Subagents avec modèle distinct permet d'utiliser Haiku pour l'exploration et garder Sonnet/Opus pour la décision.
/modelpermet de changer en cours de session sans perdre le contexte.- Les versions évoluent rapidement (Anthropic itère tous les 1-3 mois) — vérifiez toujours la doc officielle avant de citer un modèle dans votre équipe.