Aller au contenu
Développement medium

Quel modèle Ollama choisir en 2026 ? Cheat sheet Llama 4, Qwen 3, Gemma 4

8 min de lecture

Vous ouvrez ollama.com/library et vous voyez Llama 4, Qwen 3, Gemma 4, Kimi K2, DeepSeek-R1, Mistral, Phi, GLM-5… plus de 100 modèles. Lequel pour votre cas ? Lequel pour votre VRAM ? Lequel parle bien français ? Ce guide est une cheat sheet à jour de mai 2026 avec des benchmarks réels mesurés sur NVIDIA H100.

  • 4 critères pour choisir un modèle Ollama (usage, VRAM, licence, multilingue)
  • Top 3 par cas d'usage (chat, code, agents, vision, RAG/embeddings)
  • Cheat sheet VRAM : quel modèle pour 4 / 8 / 12 / 24 / 80 Go de VRAM
  • Benchmarks réels mesurés sur H100 PCIe 80 Go
  • Chat généraliste → modèles équilibrés (Llama 4, Qwen 3, Gemma 4)
  • Code (génération, complétion) → modèles spécialisés (Qwen 3.6 Coder, DeepSeek Coder)
  • Agents (tool calling) → modèles avec function calling natif (Qwen 3, Gemma 4)
  • Vision → multimodaux (Gemma 4, Llama 3.2 Vision)
  • RAG (embeddings) → modèles d'embeddings (nomic-embed-text, mxbai-embed)
  • Raisonnement complexe → modèles « thinking » (DeepSeek-R1, Kimi K2.6)

La quantification Q4_K_M par défaut d'Ollama divise la taille mémoire par ~4 par rapport au FP16 original. Estimation rapide pour Q4_K_M :

Paramètres modèleVRAM nécessaire (Q4)
3B~2 Go
7B-8B~5 Go
13B~8 Go
30-32B~22 Go
70B~45 Go
MoE 17B actif / 109B total (Llama 4 Scout)~10 Go

Les modèles MoE (Mixture of Experts) comme Llama 4 sont la révolution 2026 : 109 B total mais seulement 17 B actifs par token, donc ils tiennent sur un GPU 10 Go.

LicenceUsage commercialModèles concernés
Apache 2.0✅ LibreQwen 3, Gemma 4, Kimi K2
Llama Community License✅ Sous conditions (<700 M MAU)Llama 3.x, Llama 4
MIT✅ LibreMistral, DeepSeek
Propriétaire❌ RestreintCertains modèles spécialisés

Pour un projet en entreprise, toujours vérifier la licence avant de partir en prod.

Tous les modèles ne se valent pas en français. Mon ressenti après tests intensifs (mai 2026) :

  • ⭐⭐⭐ Excellent : Qwen 3, Gemma 4, Mistral (français natif)
  • ⭐⭐ Bon : Llama 4, DeepSeek-R1
  • Moyen : Phi, Llama 3.2 Vision (préfère l'anglais)
RangModèleTag OllamaVRAMNote
🥇Qwen 3qwen35 GoLe meilleur compromis ; français impeccable
🥈Llama 4 Scout (MoE)llama4:scout10 Go109 B total, 17 B actifs ; raisonne bien
🥉Gemma 4gemma410 GoApache 2.0, 256 K context
RangModèleTag OllamaVRAMNote
🥇Qwen 3.6 Coder 27Bqwen3.6:27b22 Go77.2 % SWE-bench (sortie mai 2026)
🥈DeepSeek Coder V2deepseek-coder-v222 GoExcellent sur Python, JS, Rust
🥉Kimi K2.6kimi-k2.680 GoTop-tier mais énorme (MoE 42 B actif / 1 T total)
RangModèleTag OllamaVRAMNote
🥇Qwen 3qwen35 GoLe plus stable sur tool calling (hallucinations rares d'arguments)
🥈Gemma 4gemma410 GoFunction calling natif entraîné dans les poids
🥉Llama 4 Scoutllama4:scout10 GoBon, mais nouveau dans Ollama (à confirmer)
RangModèleTag OllamaVRAMNote
🥇Gemma 4gemma410 GoVision + tool calling combinés (avril 2026)
🥈Llama 3.2 Vision 11Bllama3.2-vision8 GoAlternative légère ; meilleure en anglais
🥉Llama 3.2 Vision 90Bllama3.2-vision:90b64 GoPour GPU pro uniquement (H100, A100)

→ Détails dans Vision avec Ollama.

RangModèleTag OllamaVRAMDimensions
🥇nomic-embed-textnomic-embed-text0.3 Go768
🥈mxbai-embed-largemxbai-embed-large0.6 Go1024
🥉granite-embeddinggranite-embedding0.5 Go768

→ Détails dans Embeddings avec Ollama.

Quel modèle pour combien de VRAM ? Vue d'ensemble (mai 2026, Q4_K_M) :

VRAM disponibleModèle recommandé chatModèle recommandé codeVision
4 Gophi3, gemma:2bqwen2.5-coder:1.5b
8 Goqwen3 (5 Go)qwen2.5-coder:7bllama3.2-vision
12 Gogemma4 (10 Go), llama4:scoutqwen3 + IDEgemma4
24 Goqwen3 + tout en RAMqwen3.6:27b, deepseek-coder-v2gemma4
80 Go (H100)kimi-k2.6 (MoE), llama3.3 (70B)Toute la stackllama3.2-vision:90b

Benchmarks réels mesurés (NVIDIA H100, Ollama 0.24)

Section intitulée « Benchmarks réels mesurés (NVIDIA H100, Ollama 0.24) »

Mesures effectuées avec le lab inference/ollama-models-2026 du dépôt lab-ia-mcp. Trois prompts standards : chat français, code Python, orchestration d'outils.

ModèleVRAM mesuréeTokens/s (chat)TTFT (ms)
qwen326 Go (KV cache inclus)~160115
gemma4~32 Go~120~150
llama3.1~22 Go~140~120
mistral~18 Go~100~180

Vous voulez un seul modèle qui fait tout ? Mon choix par défaut en 2026 :

  • ✅ Chat français impeccable
  • ✅ Tool calling le plus stable
  • ✅ Structured Outputs fiable
  • ✅ 5 Go de VRAM seulement
  • ✅ Apache 2.0
  • ❌ Pas de vision (mais Gemma 4 compense)
  • ✅ Vision + tool calling combinés (unique en 2026)
  • ✅ Apache 2.0, 256 K context
  • ✅ Excellent en français
  • ❌ Plus gourmand (10 Go VRAM)

🥉 llama4:scout — si vous avez 10 Go et voulez le top du raisonnement

Section intitulée « 🥉 llama4:scout — si vous avez 10 Go et voulez le top du raisonnement »
  • ✅ MoE 17 B actif / 109 B total
  • ✅ Raisonnement riche
  • ❌ Plus lent qu'un dense 7-8 B
  • ❌ Llama Community License (à vérifier)
Fenêtre de terminal
ollama pull qwen3 # chat + agents + structured
ollama pull nomic-embed-text # embeddings pour RAG
Fenêtre de terminal
ollama pull qwen3 # chat / agents
ollama pull qwen3.6:27b # code (utilisation alternée)
ollama pull gemma4 # vision
ollama pull nomic-embed-text # RAG
Fenêtre de terminal
ollama pull qwen3 # défaut
ollama pull gemma4 # vision + tools
ollama pull llama3.3 # raisonnement long
ollama pull kimi-k2.6 # code top-tier
ollama pull mxbai-embed-large # RAG haute qualité

Q : Le modèle X est sorti hier, pourquoi pas dans la liste ? R : Cette cheat sheet est figée au 26 mai 2026. Pour le toujours à jour, consultez ollama.com/library et HuggingFace Open LLM Leaderboard.

Q : Comment savoir si un modèle supporte le tool calling ? R : Sur ollama.com, chaque modèle liste ses capabilities. Sinon, testez en pratique avec le code du guide Tool Calling — si tool_calls est vide à la 1re question, le modèle ne supporte pas.

Q : Q4_K_M vs Q8_0 — quelle différence ? R : Q4_K_M (default Ollama) divise la taille par 4 avec une perte de qualité imperceptible sur la plupart des tâches. Q8_0 double la taille pour ~1-2 % de gain de qualité. Pour 99 % des cas, Q4_K_M suffit.

Q : Mon modèle Q4 est en mode CPU only et lent. Pourquoi ? R : Le modèle ne tient pas en VRAM → Ollama bascule en CPU+RAM, 5-20× plus lent. Vérifiez avec ollama ps et nvidia-smi. Réduisez num_ctx (taille de contexte) ou prenez un modèle plus petit.

Q : Comment forcer Ollama à utiliser un modèle quantifié différemment ? R : Suffix dans le tag : ollama pull qwen3:7b-q8_0 (si dispo). Le tag par défaut est généralement la version Q4_K_M.

  • Mai 2026 : Llama 4 (MoE), Qwen 3 (chat/tools), Gemma 4 (vision+tools), Kimi K2.6 (code top), DeepSeek-R1 (raisonnement) dominent.
  • Quantification Q4_K_M par défaut : taille / 4 sans perte sensible.
  • MoE change la donne : Llama 4 Scout = 109 B total mais 10 Go VRAM seulement.
  • Mon défaut généraliste : qwen3. Si vision : gemma4.
  • Multilingue FR : Qwen 3 et Gemma 4 sont au top. Llama 4 et DeepSeek bons mais préfèrent l'anglais.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracing. Aujourd'hui, ce site ne couvre même pas mes frais d'hébergement, d'électricité, de matériel, de logiciels, mais surtout de cafés.

Un soutien régulier, même symbolique, m'aide à garder ces ressources gratuites et à continuer de produire des guides de qualité. Merci pour votre appui.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn