Gemini CLI ne facture rien en soi : ce qui compte, c'est le modèle appelé et le quota de votre accès. Ce guide explique quel modèle l'agent utilise (Flash ou Pro), comment le choisir, quels sont les quotas de la clé API en 2026, et comment suivre puis maîtriser votre consommation de tokens. Il s'adresse à qui veut travailler sans exploser son quota ni sa facture, débutant comme intermédiaire.
Ce que vous allez apprendre
Section intitulée « Ce que vous allez apprendre »- Comment l'agent est authentifié en 2026 et ce que ça change
- La différence entre Gemini Flash et Gemini Pro, et lequel choisir
- Forcer un modèle par la ligne de commande, le REPL ou
settings.json - Suivre votre consommation de tokens avec
/stats - Réduire vos coûts sans dégrader la qualité
Prérequis
Section intitulée « Prérequis »- Gemini CLI installé et authentifié. Voir Installer Gemini CLI.
- Notions de configuration. Voir Configurer avec settings.json.
L'authentification a changé en 2026
Section intitulée « L'authentification a changé en 2026 »Impossible de parler de quotas sans ce point. Depuis le 18 juin 2026, les offres Gemini Code Assist for individuals, Google AI Pro et Ultra ne sont plus servies par Gemini CLI, redirigées vers Antigravity. Pour un usage individuel, il reste donc une voie principale : la clé API Gemini obtenue sur Google AI Studio. Les organisations, elles, passent par Vertex AI.
C'est la clé API qui détermine votre quota et votre éventuelle facturation. Le détail de sa mise en place est couvert dans le guide d'installation ; ici, on part du principe qu'elle est en place et on regarde ce qu'elle autorise.
Flash ou Pro : quel modèle
Section intitulée « Flash ou Pro : quel modèle »Gemini CLI s'appuie sur la famille Gemini 3. Deux profils de modèles couvrent l'essentiel des usages, et ils n'ont ni le même coût ni la même vocation :
| Modèle | Pour quoi | Accès |
|---|---|---|
Gemini Flash (ex. gemini-3.5-flash) | Vitesse et volume : édition, questions, itérations rapides | Éligible au free tier |
Gemini Pro (ex. gemini-3-pro) | Raisonnement complexe, gros refactors, analyse profonde | Payant (retiré du free tier en avril 2026) |
Le réflexe économique est simple : rester sur Flash par défaut, et ne
basculer sur Pro que pour les tâches qui le justifient vraiment. Dans un lab
de test, le modèle réellement servi par défaut est gemini-3.5-flash, ce
que confirment les statistiques de session (voir plus bas).
Le mode Auto et comment forcer un modèle
Section intitulée « Le mode Auto et comment forcer un modèle »Par défaut, la barre d'état du REPL affiche /model : Auto : la CLI
choisit le modèle adapté à la demande. C'est confortable, mais quand on
surveille un quota, on veut parfois imposer un modèle précis. Trois moyens,
du plus ponctuel au plus permanent :
-
Le temps d'une commande, avec le drapeau
-m:Fenêtre de terminal gemini -m gemini-3.5-flash -p "Résume ce dépôt" -
Pendant une session, avec la commande
/model. L'option--persistécrit le choix dans votre configuration :> /model set gemini-3.5-flash --persist -
De façon durable, dans un
settings.json, via la clémodel.name:{"model": {"name": "gemini-3.5-flash"}}
Placé dans le settings.json d'un projet, ce choix s'applique à toute
l'équipe qui travaille sur le dépôt, comme vu dans le
guide de configuration.
Comprendre les quotas de la clé API
Section intitulée « Comprendre les quotas de la clé API »Les limites de la clé API gratuite sont pensées pour l'essai, pas pour un usage soutenu. À la mi-2026, l'ordre de grandeur pour un modèle Flash est de quelques dizaines de requêtes par minute et un plafond journalier de l'ordre du millier, avec un quota de tokens par minute associé. Deux règles structurent ces limites :
- Le quota est par projet, pas par clé : créer plusieurs clés sous le même projet n'augmente pas votre quota.
- Le compteur journalier se remet à zéro à minuit, heure du Pacifique, pas à votre minuit local.
Au-delà du free tier, activer la facturation sur le projet lève l'essentiel des limites basses et donne accès à Pro. La consommation devient alors un coût à surveiller, ce qui rend le suivi ci-dessous encore plus utile.
Suivre sa consommation de tokens
Section intitulée « Suivre sa consommation de tokens »Gemini CLI expose sa consommation, ce qui évite de découvrir le problème une
fois le quota atteint. En session, la commande /stats affiche le détail
par session, par modèle et par outil.
En mode headless, la sortie JSON contient un bloc stats exploitable dans un
script. Sur une simple requête de test, on lit le modèle servi et le décompte
précis des tokens :
"stats": { "models": { "gemini-3.5-flash": { "api": { "totalRequests": 1, "totalErrors": 0 }, "tokens": { "input": 2005, "prompt": 8098, "cached": 6093, "thoughts": 291, "total": 8390 } } }}Deux chiffres méritent l'attention. Le champ cached (ici 6093 tokens sur
8390) correspond au contexte réutilisé d'un tour à l'autre, souvent facturé
moins cher : un contexte stable coûte moins. Le champ thoughts mesure
les tokens de raisonnement interne, plus élevés sur les modèles Pro.
Maîtriser ses coûts
Section intitulée « Maîtriser ses coûts »Quelques réglages et habitudes suffisent à garder la consommation sous contrôle, sans sacrifier la qualité des réponses :
- Garder Flash par défaut et réserver Pro aux tâches complexes.
- Limiter la longueur des sessions avec
model.maxSessionTurnsdanssettings.json: un plafond évite les boucles qui consomment sans avancer. - Compresser le contexte : la clé
model.compressionThresholddéclenche un résumé automatique quand la conversation grossit, ce qui réduit les tokens renvoyés à chaque tour. - Cadrer avant d'exécuter : préparer la tâche en lecture seule (le plan mode) évite les allers-retours coûteux dus à des actions mal ciblées.
Dépannage : quota atteint
Section intitulée « Dépannage : quota atteint »Quand l'agent renvoie une erreur de type quota exceeded ou un code 429, la cause et la parade sont généralement claires :
| Symptôme | Cause probable | Solution |
|---|---|---|
Erreur 429 en rafale | Requêtes par minute dépassées | Ralentir la cadence, espacer les prompts |
| Blocage en fin de journée | Plafond journalier atteint | Attendre le reset (minuit Pacifique) ou activer la facturation |
| Pro inaccessible | Modèle payant sans facturation | Activer la facturation, ou rester sur Flash |
| Quota inchangé malgré une 2ᵉ clé | Limite par projet | Utiliser un autre projet, pas une autre clé |
À retenir
Section intitulée « À retenir »- En 2026, l'usage individuel de Gemini CLI passe par la clé API Gemini (Code Assist individuel/AI Pro/Ultra ne sont plus servis par la CLI).
- Flash est rapide et éligible au free tier ; Pro est payant et réservé aux tâches complexes.
- Le mode
Autochoisit pour vous ; on force un modèle avec-m,/model set --persistoumodel.name. - Le quota gratuit est par projet et se réinitialise à minuit Pacifique ; les chiffres exacts évoluent, la doc officielle fait foi.
/statset la sortie JSON headless donnent la consommation réelle de tokens (dontcachedetthoughts).- On maîtrise les coûts avec Flash par défaut,
maxSessionTurns,compressionThresholdet un contexte propre.