Aller au contenu
Développement medium

Modèles Claude Code : Opus 4.8, Sonnet 4.6, Haiku 4.5 — quand choisir quoi

18 min de lecture

Claude Code utilise trois familles de modèles Anthropic : Opus (le plus capable), Sonnet (équilibre coût/qualité) et Haiku (le plus rapide). Choisir le bon pour chaque tâche change radicalement votre coût et la qualité du résultat. Cette page vous donne le comparatif chiffré actualisé (juin 2026), le bon réflexe par cas d'usage, et les leviers d'optimisation (prompt caching, Batch API, changement de modèle en cours de session) pour ne pas payer Opus là où Sonnet ou Haiku suffirait.

  • Distinguer Opus 4.8 / Sonnet 4.6 / Haiku 4.5 en capacités, prix et latence
  • Choisir le modèle adapté à chaque type de tâche Claude Code
  • Estimer votre coût mensuel avec 3 scénarios chiffrés
  • Changer de modèle en cours de session avec /model
  • Optimiser via prompt caching et Batch API pour diviser les coûts par 5 à 10
  • Identifier les modèles encore utiles parmi les legacy (Opus 4.7, Sonnet 4.5)

Les modèles ci-dessous sont les modèles courants disponibles via Claude Code et la Claude API à la date du guide (juin 2026). Anthropic itère vite — vérifiez la page modèles officielle avant de citer des versions précises dans votre équipe.

CritèreClaude Opus 4.8Claude Sonnet 4.6Claude Haiku 4.5
PositionnementLe plus capableLe meilleur équilibre vitesse/intelligenceLe plus rapide, intelligence proche du frontier
Identifiant APIclaude-opus-4-8claude-sonnet-4-6claude-haiku-4-5-20251001 (alias claude-haiku-4-5)
Prix input5 $ / MTok3 $ / MTok1 $ / MTok
Prix output25 $ / MTok15 $ / MTok5 $ / MTok
Context window1M tokens1M tokens200k tokens
Max output128k tokens64k tokens64k tokens
Latence relativeModéréeRapideLa plus rapide
Extended thinkingNonOuiOui
Adaptive thinkingOuiOuiNon
Connaissance jusqu'àJanvier 2026Août 2025Février 2025
Priority TierOuiOuiOui

Les 3 modèles supportent : texte + images en entrée, capacités multilingues, et la vision. Tous sont disponibles via la Claude API, Claude Platform on AWS, Amazon Bedrock, Google Vertex AI et Microsoft Foundry.

Description officielle Anthropic : « Anthropic's most capable model for complex reasoning and agentic coding ».

  • Raisonnement complexe multi-étapes : architecture, refactoring cross-module, dépannage profond
  • Agentic coding long-horizon : sessions Claude Code qui s'étalent sur des heures avec des dizaines de fichiers touchés
  • 1M tokens de context window : peut lire un mono-repo de taille moyenne en une session
  • Connaissance la plus récente (jan 2026) parmi les 3 modèles
  • Le plus cher : 5 $/M input + 25 $/M output. Une session intensive peut atteindre plusieurs dollars.
  • Latence modérée : pas adapté aux interactions rapides type pair-programming
  • Tokenizer nouveau : ~35 % de tokens en plus que les anciens modèles pour le même texte → impact budget direct
  • Pas d'extended thinking (la pause raisonnée explicite est désactivée pour Opus, qui utilise l'adaptive thinking à la place)
  • Refactoring touchant plus de 5-10 fichiers
  • Audit architecture complète
  • Dépannage de bugs subtils sur la concurrence, le typing ou les races conditions
  • Génération de tests exhaustifs sur des fonctions complexes
  • Sessions « interview moi pour spec » avant gros chantier (cf pattern Anthropic officiel)
  • Tâche unitaire courte (commit message, rename, ajout d'import) → Haiku suffit
  • Exploration légère d'un fichier → Sonnet suffit largement
  • Toute tâche scriptable / déterministe → utiliser des hooks ou des scripts directs

Description officielle Anthropic : « The best combination of speed and intelligence ».

  • Rapport qualité/prix imbattable : 3 $/M input + 15 $/M output (= 60 % moins cher qu'Opus pour ~90 % des cas d'usage)
  • 1M tokens de context window (identique à Opus 4.8)
  • Latence rapide : adapté aux sessions interactives
  • Extended thinking activé : peut prendre du temps pour raisonner sur les passages complexes sans surcoût d'API
  • Adaptive thinking également
  • Moins fort qu'Opus sur le raisonnement long-horizon agentique pur
  • Knowledge cutoff plus ancien (août 2025) que Opus 4.8 (janvier 2026)
  • La majorité des sessions de développement au quotidien
  • Génération de code feature standard (CRUD, intégration API, transformations de données)
  • Revue de PR
  • Refactoring 1-5 fichiers
  • Rédaction de tests sur des fonctions de complexité moyenne
  • Documentation technique d'une zone du code

C'est le modèle que Claude Code utilise par défaut depuis Sonnet 4.5. Vous n'avez pas à le sélectionner explicitement dans 80 % des cas.

Description officielle Anthropic : « The fastest model with near-frontier intelligence ».

  • Le plus rapide des trois (latence minimale)
  • Le moins cher : 1 $/M input + 5 $/M output (= 5 fois moins cher que Sonnet)
  • Extended thinking disponible (point fort vs Haiku précédent)
  • Intelligence proche du frontier : ne sacrifie pas la qualité sur les tâches simples
  • Context window de 200k tokens seulement (vs 1M pour Opus/Sonnet) → pas adapté aux gros codebases en une session
  • Pas d'adaptive thinking : moins efficient sur les raisonnements multi-étapes
  • Knowledge cutoff plus ancien (février 2025)
  • Génération de messages de commit / descriptions de PR (la tâche par excellence)
  • Formatage et fixes de lint quand vous voulez aller vite
  • Génération de docstrings sur des fonctions existantes
  • Renommages massifs (rename de symboles, conventions)
  • Sessions courtes et focalisées sur un seul fichier
  • Subagents spécialisés sur des tâches répétitives (cf subagents)
  • Mode headless / Batch API pour traiter en lot des centaines de fichiers (cf headless)
  • Toute session impliquant la compréhension de plusieurs fichiers et leur logique d'interaction
  • Architecture, design, choix techniques de fond
  • Dépannage de bugs subtils

Dans une session Claude Code, tapez la commande slash :

/model

Un sélecteur s'affiche avec les modèles disponibles. Vous pouvez changer de modèle au milieu d'une session — le contexte est conservé, c'est le prochain tour qui utilise le nouveau modèle.

Pour un projet, fixez le modèle par défaut dans .claude/settings.json (cf settings.json avancé) :

{
"model": "claude-sonnet-4-6"
}

Ou en variable d'environnement avant lancement :

Fenêtre de terminal
ANTHROPIC_MODEL=claude-haiku-4-5 claude

Chaque subagent peut spécifier son propre modèle dans son fichier .claude/agents/<nom>.md :

---
name: security-reviewer
description: Reviews code for security vulnerabilities
tools: Read, Grep, Glob, Bash
model: opus
---

Pattern recommandé : subagent reviewer en Opus, subagent explorer en Haiku (lecture rapide), session principale en Sonnet.

Estimations basées sur les prix officiels Anthropic juin 2026, hors prompt caching.

Vous demandez à Claude de corriger une faute de frappe et de relancer les tests.

  • Input : ~3 000 tokens (intro + fichier de 2k tokens lu)
  • Output : ~500 tokens (modif + commentaire)

Coût : (3000 × 1 + 500 × 5) / 1 000 000 = 0,0055 $ (~0,5 centime)

Sur 50 sessions de ce type dans le mois : 27 centimes.

Vous demandez à Claude de refactorer un module de validation en plusieurs fichiers avec tests.

  • Input : ~50 000 tokens (8 fichiers de ~5k tokens chacun + spec + discussion)
  • Output : ~15 000 tokens (modifs étalées sur les fichiers + tests générés)

Coût : (50000 × 3 + 15000 × 15) / 1 000 000 = 0,375 $ (~37 centimes)

Sur 30 sessions de ce type par mois : 11,25 $.

Vous demandez à Claude d'analyser une codebase Python de 30 fichiers et proposer une refonte architecturale.

  • Input : ~200 000 tokens (codebase lue + discussion technique étendue)
  • Output : ~30 000 tokens (analyse + plan + exemples de code)

Coût : (200000 × 5 + 30000 × 25) / 1 000 000 = 1,75 $ par session

Sur 10 sessions de ce type par mois : 17,50 $.

ProfilEstimation mensuelle
Usage léger (50 sessions Haiku + 10 Sonnet + 2 Opus)~5 $/mois
Usage régulier (50 Haiku + 30 Sonnet + 10 Opus)~30 $/mois
Usage intensif (100 Haiku + 60 Sonnet + 30 Opus)~80-100 $/mois

Ces chiffres excluent le prompt caching qui peut diviser les coûts par 3 à 5 sur les sessions à long contexte stable.

Le prompt caching réutilise les portions répétées du contexte (CLAUDE.md, fichiers lus plusieurs fois, system prompt) au lieu de les re-facturer à chaque tour. Le multiplicateur est radical :

Opération cacheMultiplicateur prix
Cache hit (lecture)0,1× le prix input standard
Cache write 5 min1,25× le prix input
Cache write 1 h2× le prix input

Un cache hit coûte 10 % du prix d'un input standard. Sur une session où vous travaillez 1 heure sur le même CLAUDE.md + 5 mêmes fichiers, le cache s'amortit dès la 2e lecture (pour le cache 5 min) ou la 3e (pour le cache 1 h).

Claude Code active le prompt caching automatiquement dans la plupart des cas — vous n'avez rien à coder.

Le Batch API offre 50 % de réduction sur input + output, en échange d'un traitement asynchrone (jusqu'à 24 h pour les très gros batchs, en pratique quelques minutes).

ModèleBatch inputBatch output
Opus 4.82,50 $/MTok12,50 $/MTok
Sonnet 4.61,50 $/MTok7,50 $/MTok
Haiku 4.50,50 $/MTok2,50 $/MTok

À combiner avec le mode headless Claude Code pour traiter en lot des centaines de fichiers (migration framework, génération massive de docstrings, audit batch). Pas adapté à l'interactif.

Le plus gros levier reste de ne pas utiliser Opus quand Sonnet ou Haiku suffit. Quelques règles concrètes :

  • Sub-tâche « générer un message de commit » → forcer Haiku via subagent ou prompt
  • Sub-tâche « explorer 50 fichiers pour cartographier » → subagent Haiku (le résultat est synthétisé pour Sonnet/Opus)
  • Sub-tâche « designer l'architecture » → Opus
  • Session quotidienne → Sonnet

Les subagents tournent dans un contexte séparé et reportent leur synthèse à la session principale. Vous payez le coût de leur exploration en Haiku (si configuré) et vous récupérez juste 500-2000 tokens de synthèse dans votre session principale qui tourne en Sonnet.

Pattern type : « Use a Haiku subagent to map all callers of processOrder() across the codebase and report just the files and signatures ».

Modèles legacy : quand sont-ils encore pertinents ?

Section intitulée « Modèles legacy : quand sont-ils encore pertinents ? »

Plusieurs anciens modèles restent disponibles, certains à des prix identiques aux nouveaux :

ModèleStatutPertinence
Opus 4.7, 4.6, 4.5Disponibles, mêmes prix qu'Opus 4.8Migrez vers 4.8, sauf cas particulier de régression sur votre workload
Sonnet 4.5Disponible, même prix que Sonnet 4.6Migrez vers 4.6
Opus 4.1Déprécié, retiré le 5 août 2026Migration obligatoire vers Opus 4.8
Sonnet 4Déprécié, retiré le 15 juin 2026Migration obligatoire vers Sonnet 4.6
Opus 4Déprécié, retiré le 15 juin 2026Migration obligatoire vers Opus 4.8
Haiku 3.5Retiré sauf sur Bedrock et Vertex AIMigrez vers Haiku 4.5 sur la Claude API

Vérifiez la page deprecations officielle avant toute décision de bascule.

Tâche entrante → quel modèle ?

Est-ce une tâche unique courte (< 5 min de session) ?
├─ Oui → Haiku 4.5
└─ Non → Combien de fichiers Claude doit-il lire / modifier ?
├─ 1-3 fichiers → Sonnet 4.6
├─ 4-10 fichiers → Sonnet 4.6 (Opus si bugs subtils)
└─ 10+ fichiers OU architecture multi-modules → Opus 4.8

Pour les subagents :

  • Subagent d'exploration / mapping → Haiku 4.5
  • Subagent de génération standard → Sonnet 4.6
  • Subagent de revue de sécurité ou audit complexe → Opus 4.8

Fast mode — la pédale d'accélérateur (preview)

Section intitulée « Fast mode — la pédale d'accélérateur (preview) »

Le Fast mode (research preview) offre une latence très significativement réduite sur Opus, au prix d'un surcoût :

ModèleInput fastOutput fast
Opus 4.6 / 4.730 $/MTok150 $/MTok
Opus 4.810 $/MTok50 $/MTok

Fast mode est utile quand vous attendez vraiment la réponse Opus en interactif. Pour le mode headless / CI, restez sur le pricing standard ou Batch API.

Comment savoir quel modèle Claude Code utilise actuellement ?

Section intitulée « Comment savoir quel modèle Claude Code utilise actuellement ? »

Dans une session interactive, tapez /model pour voir le modèle actif et changer. Dans le mode headless claude -p, vous pouvez passer --model <id> pour forcer une version précise.

Puis-je changer de modèle au milieu d'une session ?

Section intitulée « Puis-je changer de modèle au milieu d'une session ? »

Oui, /model permet de basculer sans perdre le contexte. Le tour suivant utilise le nouveau modèle.

Identique au CLI : même selector /model, même fichier .claude/settings.json, même comportement par défaut (Sonnet 4.6).

Combien je vais payer par mois en usage régulier ?

Section intitulée « Combien je vais payer par mois en usage régulier ? »

Voir les scénarios chiffrés plus haut. À titre indicatif :

  • Usage léger : 5-10 $/mois
  • Usage régulier : 25-40 $/mois
  • Usage intensif : 80-150 $/mois

Pour réduire fortement, activez le prompt caching (automatique chez Claude Code) et basculez en Haiku ce qui peut l'être.

Y a-t-il un fallback automatique si Opus est saturé ?

Section intitulée « Y a-t-il un fallback automatique si Opus est saturé ? »

Anthropic propose les Priority Tiers sur les 3 modèles. Claude Code ne fait pas de fallback silencieux entre modèles — vous gardez le modèle choisi.

Le nouveau tokenizer Opus 4.7+ change quoi pour moi ?

Section intitulée « Le nouveau tokenizer Opus 4.7+ change quoi pour moi ? »

Pour un même texte, Opus 4.7+ peut consommer jusqu'à 35 % de tokens en plus que les modèles précédents. En contrepartie, il est plus performant sur de nombreuses tâches. À garder en tête pour les estimations de coût : un budget mensuel calculé sur Opus 4.5 peut être insuffisant sur Opus 4.8.

Quel modèle pour des tâches éducatives ou exploration de code source open source ?

Section intitulée « Quel modèle pour des tâches éducatives ou exploration de code source open source ? »

Haiku 4.5 suffit largement pour explorer une codebase peu familière (lecture + Q&A). Passez à Sonnet 4.6 quand vous commencez à modifier réellement.

Non. Claude Code dépend de l'API Anthropic. Pour du local, regardez Ollama avec des modèles open-source (Llama, Mistral) — au prix d'une qualité de modèle significativement moindre que Claude.

  • 3 modèles courants en juin 2026 : Opus 4.8 (complexe), Sonnet 4.6 (équilibre), Haiku 4.5 (rapide).
  • Sonnet 4.6 est le défaut de Claude Code et couvre 80 % des cas.
  • Opus 4.8 coûte 5× Haiku sur l'output — à réserver aux tâches qui en ont vraiment besoin.
  • Prompt caching activé par défaut dans Claude Code : 10 % du prix input sur les cache hits.
  • Batch API à -50 % pour les opérations massives en mode headless.
  • Subagents avec modèle distinct permet d'utiliser Haiku pour l'exploration et garder Sonnet/Opus pour la décision.
  • /model permet de changer en cours de session sans perdre le contexte.
  • Les versions évoluent rapidement (Anthropic itère tous les 1-3 mois) — vérifiez toujours la doc officielle avant de citer un modèle dans votre équipe.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracing. Aujourd'hui, ce site ne couvre même pas mes frais d'hébergement, d'électricité, de matériel, de logiciels, mais surtout de cafés.

Un soutien régulier, même symbolique, m'aide à garder ces ressources gratuites et à continuer de produire des guides de qualité. Merci pour votre appui.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn