Ollama : dépannage et configuration

Ollama est simple, mais quelques pièges reviennent souvent : il ne répond pas, un modèle sature la mémoire, ou l'on expose le serveur sans le vouloir. Ce guide regroupe les erreurs courantes et leurs correctifs, puis la configuration utile : emplacement de stockage, limites mémoire, le piège du contexte num_ctx, et surtout la sécurité du port 11434. Prérequis : Ollama déjà installé.

Ce que vous allez apprendre

Diagnostiquer les erreurs courantes (connexion, modèle, lenteur)
Configurer le stockage et les limites mémoire d'Ollama
Éviter le piège du contexte (num_ctx) qui sature la VRAM
Sécuriser l'accès au port 11434

Dépannage des problèmes courants

Même si Ollama est simple d'utilisation, vous pouvez rencontrer quelques difficultés. Voici les problèmes les plus fréquents et leurs solutions.

"Error: could not connect to ollama"

Le problème : Ollama ne répond pas quand vous tapez une commande.

Causes possibles et solutions :

Le service Ollama n'est pas démarré

Sur Linux :
Fenêtre de terminal
```
sudo systemctl start ollama
sudo systemctl status ollama  # Vérifier l'état
```
Sur Windows : Vérifiez que l'icône Ollama est présente dans la zone de notification. Si non, relancez l'application Ollama.

Sur macOS : Cliquez sur l'icône Ollama dans la barre de menu et vérifiez qu'il est "Running".
Un pare-feu bloque le port 11434

Ollama utilise le port 11434. Si vous avez un pare-feu strict, autorisez ce port en local.

"Error: model not found"

Le problème : Vous essayez d'utiliser un modèle qui n'est pas installé.

Solution :

# Vérifier les modèles installés
ollama list

# Télécharger le modèle manquant
ollama pull nom-du-modele

"Error: out of memory" ou performances très lentes

Le problème : Votre machine n'a pas assez de RAM pour le modèle choisi.

Solutions :

Utilisez un modèle plus petit

# Au lieu de mistral (7B), essayez phi (1.5B)
ollama pull phi
ollama run phi "Votre question"

Fermez d'autres applications pour libérer de la RAM
Vérifiez l'utilisation mémoire :

Sur Linux/macOS :
Fenêtre de terminal
```
free -h  # Voir la RAM disponible
htop     # Voir les processus gourmands
```
Sur Windows : Ouvrez le Gestionnaire des tâches (Ctrl+Shift+Échap)

Les réponses sont très lentes

Causes possibles et solutions :

Modèle trop grand pour votre machine → Passez à un modèle plus petit
Première requête après le lancement : Le modèle doit être chargé en mémoire. C'est normal que la première réponse soit plus longue (10-30 secondes). Les suivantes seront rapides.
Autres processus utilisent le CPU → Fermez les applications lourdes

Vous n'utilisez pas le GPU alors qu'il est disponible :

# Vérifier si Ollama utilise le GPU
ollama run llama3.2 "Test"
# Regardez l'utilisation GPU avec nvidia-smi (si NVIDIA)

Le modèle donne des réponses incohérentes

Le problème : Les réponses sont confuses, hors-sujet, ou répétitives.

Solutions :

Reformulez votre question de manière plus précise et structurée
Essayez un autre modèle, certains sont meilleurs pour certaines tâches
Commencez une nouvelle conversation, parfois le contexte précédent "pollue" les réponses :
Fenêtre de terminal
```
# Quitter et relancer
>>> /bye
ollama run llama3.2
```

Configuration avancée (optionnel)

Cette section est destinée aux utilisateurs avancés qui veulent personnaliser Ollama.

Changer l'emplacement de stockage des modèles

Par défaut, Ollama stocke les modèles dans :

Linux : ~/.ollama/models
Windows : C:\Users\<user>\.ollama\models
macOS : ~/.ollama/models

Pour changer cet emplacement (par exemple, vers un disque plus grand) :

# Définir un nouvel emplacement avant de lancer Ollama
export OLLAMA_MODELS="/chemin/vers/nouveau/dossier"

# Puis lancer Ollama
ollama serve

Limiter l'utilisation de la mémoire

Si Ollama consomme trop de RAM :

# Limiter à un seul modèle chargé à la fois
export OLLAMA_MAX_LOADED_MODELS=1

# Limiter la file d'attente des requêtes
export OLLAMA_MAX_QUEUE=4

Un petit modèle peut quand même saturer la VRAM : le contexte (la fenêtre de tokens) est réservé en mémoire dès le chargement. Sur une machine de test, un Llama 3.2 3B de 2 Go sur le disque occupait 23 Go en mémoire à cause du contexte par défaut, visible avec ollama ps :

NAME           SIZE     PROCESSOR    CONTEXT
llama3.2:3b    23 GB    100% GPU     131072

Pire : si le total de tokens dépasse num_ctx, Ollama tronque silencieusement les messages les plus anciens, sans aucune erreur. Si la mémoire explose, réduisez le contexte (/set parameter num_ctx 8192 dans une session, ou PARAMETER num_ctx 8192 dans un Modelfile).

Exposer Ollama sur le réseau

Par défaut, Ollama n'écoute que sur localhost (127.0.0.1). Pour y accéder depuis d'autres machines sur votre réseau :

export OLLAMA_HOST="0.0.0.0:11434"
ollama serve

À retenir

La plupart des blocages viennent d'un service non démarré ou d'un modèle absent : vérifiez ollama serve et ollama list.
Un petit modèle peut saturer la VRAM à cause du contexte : surveillez ollama ps et réduisez num_ctx si besoin.
Ollama n'a pas d'authentification : ne jamais exposer le port 11434 sur Internet, passez par un VPN ou un reverse proxy.
Gardez Ollama à jour : les correctifs de sécurité sont fréquents.

Prochaines étapes

Installation et premiers pas Revenir au guide d'installation d'Ollama

Ollama avec Python Appeler Ollama depuis vos scripts (API, SDK, litellm)

Quel modèle choisir en 2026 Cheat sheet des modèles selon votre matériel