Gemini CLI : modèles, quotas et coûts

Gemini CLI ne facture rien en soi : ce qui compte, c'est le modèle appelé et le quota de votre accès. Ce guide explique quel modèle l'agent utilise (Flash ou Pro), comment le choisir, quels sont les quotas de la clé API en 2026, et comment suivre puis maîtriser votre consommation de tokens. Il s'adresse à qui veut travailler sans exploser son quota ni sa facture, débutant comme intermédiaire.

Ce que vous allez apprendre

Comment l'agent est authentifié en 2026 et ce que ça change
La différence entre Gemini Flash et Gemini Pro, et lequel choisir
Forcer un modèle par la ligne de commande, le REPL ou settings.json
Suivre votre consommation de tokens avec /stats
Réduire vos coûts sans dégrader la qualité

Prérequis

Gemini CLI installé et authentifié. Voir Installer Gemini CLI.
Notions de configuration. Voir Configurer avec settings.json.

L'authentification a changé en 2026

Impossible de parler de quotas sans ce point. Depuis le 18 juin 2026, les offres Gemini Code Assist for individuals, Google AI Pro et Ultra ne sont plus servies par Gemini CLI, redirigées vers Antigravity. Pour un usage individuel, il reste donc une voie principale : la clé API Gemini obtenue sur Google AI Studio. Les organisations, elles, passent par Vertex AI.

C'est la clé API qui détermine votre quota et votre éventuelle facturation. Le détail de sa mise en place est couvert dans le guide d'installation ; ici, on part du principe qu'elle est en place et on regarde ce qu'elle autorise.

Flash ou Pro : quel modèle

Gemini CLI s'appuie sur la famille Gemini 3. Deux profils de modèles couvrent l'essentiel des usages, et ils n'ont ni le même coût ni la même vocation :

Modèle	Pour quoi	Accès
Gemini Flash (ex. `gemini-3.5-flash`)	Vitesse et volume : édition, questions, itérations rapides	Éligible au free tier
Gemini Pro (ex. `gemini-3-pro`)	Raisonnement complexe, gros refactors, analyse profonde	Payant (retiré du free tier en avril 2026)

Le réflexe économique est simple : rester sur Flash par défaut, et ne basculer sur Pro que pour les tâches qui le justifient vraiment. Dans un lab de test, le modèle réellement servi par défaut est gemini-3.5-flash, ce que confirment les statistiques de session (voir plus bas).

Le mode Auto et comment forcer un modèle

Par défaut, la barre d'état du REPL affiche /model : Auto : la CLI choisit le modèle adapté à la demande. C'est confortable, mais quand on surveille un quota, on veut parfois imposer un modèle précis. Trois moyens, du plus ponctuel au plus permanent :

Le temps d'une commande, avec le drapeau -m :
Fenêtre de terminal
```
gemini -m gemini-3.5-flash -p "Résume ce dépôt"
```
Pendant une session, avec la commande /model. L'option --persist écrit le choix dans votre configuration :
```
> /model set gemini-3.5-flash --persist
```
De façon durable, dans un settings.json, via la clé model.name :
```
{
  "model": {
    "name": "gemini-3.5-flash"
  }
}
```

Placé dans le settings.json d'un projet, ce choix s'applique à toute l'équipe qui travaille sur le dépôt, comme vu dans le guide de configuration.

Comprendre les quotas de la clé API

Les limites de la clé API gratuite sont pensées pour l'essai, pas pour un usage soutenu. À la mi-2026, l'ordre de grandeur pour un modèle Flash est de quelques dizaines de requêtes par minute et un plafond journalier de l'ordre du millier, avec un quota de tokens par minute associé. Deux règles structurent ces limites :

Le quota est par projet, pas par clé : créer plusieurs clés sous le même projet n'augmente pas votre quota.
Le compteur journalier se remet à zéro à minuit, heure du Pacifique, pas à votre minuit local.

Au-delà du free tier, activer la facturation sur le projet lève l'essentiel des limites basses et donne accès à Pro. La consommation devient alors un coût à surveiller, ce qui rend le suivi ci-dessous encore plus utile.

Suivre sa consommation de tokens

Gemini CLI expose sa consommation, ce qui évite de découvrir le problème une fois le quota atteint. En session, la commande /stats affiche le détail par session, par modèle et par outil.

En mode headless, la sortie JSON contient un bloc stats exploitable dans un script. Sur une simple requête de test, on lit le modèle servi et le décompte précis des tokens :

"stats": {
  "models": {
    "gemini-3.5-flash": {
      "api": { "totalRequests": 1, "totalErrors": 0 },
      "tokens": {
        "input": 2005,
        "prompt": 8098,
        "cached": 6093,
        "thoughts": 291,
        "total": 8390
      }
    }
  }
}

Deux chiffres méritent l'attention. Le champ cached (ici 6093 tokens sur 8390) correspond au contexte réutilisé d'un tour à l'autre, souvent facturé moins cher : un contexte stable coûte moins. Le champ thoughts mesure les tokens de raisonnement interne, plus élevés sur les modèles Pro.

Maîtriser ses coûts

Quelques réglages et habitudes suffisent à garder la consommation sous contrôle, sans sacrifier la qualité des réponses :

Garder Flash par défaut et réserver Pro aux tâches complexes.
Limiter la longueur des sessions avec model.maxSessionTurns dans settings.json : un plafond évite les boucles qui consomment sans avancer.
Compresser le contexte : la clé model.compressionThreshold déclenche un résumé automatique quand la conversation grossit, ce qui réduit les tokens renvoyés à chaque tour.
Cadrer avant d'exécuter : préparer la tâche en lecture seule (le plan mode) évite les allers-retours coûteux dus à des actions mal ciblées.

Dépannage : quota atteint

Quand l'agent renvoie une erreur de type quota exceeded ou un code 429, la cause et la parade sont généralement claires :

Symptôme	Cause probable	Solution
Erreur `429` en rafale	Requêtes par minute dépassées	Ralentir la cadence, espacer les prompts
Blocage en fin de journée	Plafond journalier atteint	Attendre le reset (minuit Pacifique) ou activer la facturation
Pro inaccessible	Modèle payant sans facturation	Activer la facturation, ou rester sur Flash
Quota inchangé malgré une 2ᵉ clé	Limite par projet	Utiliser un autre projet, pas une autre clé

À retenir

En 2026, l'usage individuel de Gemini CLI passe par la clé API Gemini (Code Assist individuel/AI Pro/Ultra ne sont plus servis par la CLI).
Flash est rapide et éligible au free tier ; Pro est payant et réservé aux tâches complexes.
Le mode Auto choisit pour vous ; on force un modèle avec -m, /model set --persist ou model.name.
Le quota gratuit est par projet et se réinitialise à minuit Pacifique ; les chiffres exacts évoluent, la doc officielle fait foi.
/stats et la sortie JSON headless donnent la consommation réelle de tokens (dont cached et thoughts).
On maîtrise les coûts avec Flash par défaut, maxSessionTurns, compressionThreshold et un contexte propre.

Prochaines étapes

Configurer avec settings.json Fixer le modèle et les réglages de session pour votre projet.

GEMINI.md : le contexte projet Réduire les tokens avec un contexte concis et bien ciblé.

Gemini CLI : le hub complet Le pilier de la formation et tous les guides par phase.

Installer et s'authentifier Mettre en place la clé API qui conditionne vos quotas.