Aller au contenu
medium

Gemini CLI : modèles, quotas et coûts

9 min de lecture

Gemini CLI ne facture rien en soi : ce qui compte, c'est le modèle appelé et le quota de votre accès. Ce guide explique quel modèle l'agent utilise (Flash ou Pro), comment le choisir, quels sont les quotas de la clé API en 2026, et comment suivre puis maîtriser votre consommation de tokens. Il s'adresse à qui veut travailler sans exploser son quota ni sa facture, débutant comme intermédiaire.

  • Comment l'agent est authentifié en 2026 et ce que ça change
  • La différence entre Gemini Flash et Gemini Pro, et lequel choisir
  • Forcer un modèle par la ligne de commande, le REPL ou settings.json
  • Suivre votre consommation de tokens avec /stats
  • Réduire vos coûts sans dégrader la qualité

Impossible de parler de quotas sans ce point. Depuis le 18 juin 2026, les offres Gemini Code Assist for individuals, Google AI Pro et Ultra ne sont plus servies par Gemini CLI, redirigées vers Antigravity. Pour un usage individuel, il reste donc une voie principale : la clé API Gemini obtenue sur Google AI Studio. Les organisations, elles, passent par Vertex AI.

C'est la clé API qui détermine votre quota et votre éventuelle facturation. Le détail de sa mise en place est couvert dans le guide d'installation ; ici, on part du principe qu'elle est en place et on regarde ce qu'elle autorise.

Gemini CLI s'appuie sur la famille Gemini 3. Deux profils de modèles couvrent l'essentiel des usages, et ils n'ont ni le même coût ni la même vocation :

ModèlePour quoiAccès
Gemini Flash (ex. gemini-3.5-flash)Vitesse et volume : édition, questions, itérations rapidesÉligible au free tier
Gemini Pro (ex. gemini-3-pro)Raisonnement complexe, gros refactors, analyse profondePayant (retiré du free tier en avril 2026)

Le réflexe économique est simple : rester sur Flash par défaut, et ne basculer sur Pro que pour les tâches qui le justifient vraiment. Dans un lab de test, le modèle réellement servi par défaut est gemini-3.5-flash, ce que confirment les statistiques de session (voir plus bas).

Par défaut, la barre d'état du REPL affiche /model : Auto : la CLI choisit le modèle adapté à la demande. C'est confortable, mais quand on surveille un quota, on veut parfois imposer un modèle précis. Trois moyens, du plus ponctuel au plus permanent :

  1. Le temps d'une commande, avec le drapeau -m :

    Fenêtre de terminal
    gemini -m gemini-3.5-flash -p "Résume ce dépôt"
  2. Pendant une session, avec la commande /model. L'option --persist écrit le choix dans votre configuration :

    > /model set gemini-3.5-flash --persist
  3. De façon durable, dans un settings.json, via la clé model.name :

    {
    "model": {
    "name": "gemini-3.5-flash"
    }
    }

Placé dans le settings.json d'un projet, ce choix s'applique à toute l'équipe qui travaille sur le dépôt, comme vu dans le guide de configuration.

Les limites de la clé API gratuite sont pensées pour l'essai, pas pour un usage soutenu. À la mi-2026, l'ordre de grandeur pour un modèle Flash est de quelques dizaines de requêtes par minute et un plafond journalier de l'ordre du millier, avec un quota de tokens par minute associé. Deux règles structurent ces limites :

  • Le quota est par projet, pas par clé : créer plusieurs clés sous le même projet n'augmente pas votre quota.
  • Le compteur journalier se remet à zéro à minuit, heure du Pacifique, pas à votre minuit local.

Au-delà du free tier, activer la facturation sur le projet lève l'essentiel des limites basses et donne accès à Pro. La consommation devient alors un coût à surveiller, ce qui rend le suivi ci-dessous encore plus utile.

Gemini CLI expose sa consommation, ce qui évite de découvrir le problème une fois le quota atteint. En session, la commande /stats affiche le détail par session, par modèle et par outil.

En mode headless, la sortie JSON contient un bloc stats exploitable dans un script. Sur une simple requête de test, on lit le modèle servi et le décompte précis des tokens :

"stats": {
"models": {
"gemini-3.5-flash": {
"api": { "totalRequests": 1, "totalErrors": 0 },
"tokens": {
"input": 2005,
"prompt": 8098,
"cached": 6093,
"thoughts": 291,
"total": 8390
}
}
}
}

Deux chiffres méritent l'attention. Le champ cached (ici 6093 tokens sur 8390) correspond au contexte réutilisé d'un tour à l'autre, souvent facturé moins cher : un contexte stable coûte moins. Le champ thoughts mesure les tokens de raisonnement interne, plus élevés sur les modèles Pro.

Quelques réglages et habitudes suffisent à garder la consommation sous contrôle, sans sacrifier la qualité des réponses :

  • Garder Flash par défaut et réserver Pro aux tâches complexes.
  • Limiter la longueur des sessions avec model.maxSessionTurns dans settings.json : un plafond évite les boucles qui consomment sans avancer.
  • Compresser le contexte : la clé model.compressionThreshold déclenche un résumé automatique quand la conversation grossit, ce qui réduit les tokens renvoyés à chaque tour.
  • Cadrer avant d'exécuter : préparer la tâche en lecture seule (le plan mode) évite les allers-retours coûteux dus à des actions mal ciblées.

Quand l'agent renvoie une erreur de type quota exceeded ou un code 429, la cause et la parade sont généralement claires :

SymptômeCause probableSolution
Erreur 429 en rafaleRequêtes par minute dépasséesRalentir la cadence, espacer les prompts
Blocage en fin de journéePlafond journalier atteintAttendre le reset (minuit Pacifique) ou activer la facturation
Pro inaccessibleModèle payant sans facturationActiver la facturation, ou rester sur Flash
Quota inchangé malgré une 2ᵉ cléLimite par projetUtiliser un autre projet, pas une autre clé
  1. En 2026, l'usage individuel de Gemini CLI passe par la clé API Gemini (Code Assist individuel/AI Pro/Ultra ne sont plus servis par la CLI).
  2. Flash est rapide et éligible au free tier ; Pro est payant et réservé aux tâches complexes.
  3. Le mode Auto choisit pour vous ; on force un modèle avec -m, /model set --persist ou model.name.
  4. Le quota gratuit est par projet et se réinitialise à minuit Pacifique ; les chiffres exacts évoluent, la doc officielle fait foi.
  5. /stats et la sortie JSON headless donnent la consommation réelle de tokens (dont cached et thoughts).
  6. On maîtrise les coûts avec Flash par défaut, maxSessionTurns, compressionThreshold et un contexte propre.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracking. Un soutien, même symbolique, m'aide à couvrir l'hébergement et à garder ces ressources gratuites. Merci pour votre appui.

Le formulaire ne s'affiche pas ? Ouvrir Ko-fi dans un onglet.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn