
Ollama est simple, mais quelques pièges reviennent souvent : il ne répond pas, un modèle sature la mémoire, ou l'on expose le serveur sans le vouloir. Ce guide regroupe les erreurs courantes et leurs correctifs, puis la configuration utile : emplacement de stockage, limites mémoire, le piège du contexte num_ctx, et surtout la sécurité du port 11434. Prérequis : Ollama déjà installé.
Ce que vous allez apprendre
Section intitulée « Ce que vous allez apprendre »- Diagnostiquer les erreurs courantes (connexion, modèle, lenteur)
- Configurer le stockage et les limites mémoire d'Ollama
- Éviter le piège du contexte (
num_ctx) qui sature la VRAM - Sécuriser l'accès au port 11434
Dépannage des problèmes courants
Section intitulée « Dépannage des problèmes courants »Même si Ollama est simple d'utilisation, vous pouvez rencontrer quelques difficultés. Voici les problèmes les plus fréquents et leurs solutions.
"Error: could not connect to ollama"
Section intitulée « "Error: could not connect to ollama" »Le problème : Ollama ne répond pas quand vous tapez une commande.
Causes possibles et solutions :
-
Le service Ollama n'est pas démarré
Sur Linux :
Fenêtre de terminal sudo systemctl start ollamasudo systemctl status ollama # Vérifier l'étatSur Windows : Vérifiez que l'icône Ollama est présente dans la zone de notification. Si non, relancez l'application Ollama.
Sur macOS : Cliquez sur l'icône Ollama dans la barre de menu et vérifiez qu'il est "Running".
-
Un pare-feu bloque le port 11434
Ollama utilise le port 11434. Si vous avez un pare-feu strict, autorisez ce port en local.
"Error: model not found"
Section intitulée « "Error: model not found" »Le problème : Vous essayez d'utiliser un modèle qui n'est pas installé.
Solution :
# Vérifier les modèles installésollama list
# Télécharger le modèle manquantollama pull nom-du-modele"Error: out of memory" ou performances très lentes
Section intitulée « "Error: out of memory" ou performances très lentes »Le problème : Votre machine n'a pas assez de RAM pour le modèle choisi.
Solutions :
-
Utilisez un modèle plus petit
Fenêtre de terminal # Au lieu de mistral (7B), essayez phi (1.5B)ollama pull phiollama run phi "Votre question" -
Fermez d'autres applications pour libérer de la RAM
-
Vérifiez l'utilisation mémoire :
Sur Linux/macOS :
Fenêtre de terminal free -h # Voir la RAM disponiblehtop # Voir les processus gourmandsSur Windows : Ouvrez le Gestionnaire des tâches (Ctrl+Shift+Échap)
Les réponses sont très lentes
Section intitulée « Les réponses sont très lentes »Causes possibles et solutions :
-
Modèle trop grand pour votre machine → Passez à un modèle plus petit
-
Première requête après le lancement : Le modèle doit être chargé en mémoire. C'est normal que la première réponse soit plus longue (10-30 secondes). Les suivantes seront rapides.
-
Autres processus utilisent le CPU → Fermez les applications lourdes
-
Vous n'utilisez pas le GPU alors qu'il est disponible :
Fenêtre de terminal # Vérifier si Ollama utilise le GPUollama run llama3.2 "Test"# Regardez l'utilisation GPU avec nvidia-smi (si NVIDIA)
Le modèle donne des réponses incohérentes
Section intitulée « Le modèle donne des réponses incohérentes »Le problème : Les réponses sont confuses, hors-sujet, ou répétitives.
Solutions :
-
Reformulez votre question de manière plus précise et structurée
-
Essayez un autre modèle, certains sont meilleurs pour certaines tâches
-
Commencez une nouvelle conversation, parfois le contexte précédent "pollue" les réponses :
Fenêtre de terminal # Quitter et relancer>>> /byeollama run llama3.2
Configuration avancée (optionnel)
Section intitulée « Configuration avancée (optionnel) »Cette section est destinée aux utilisateurs avancés qui veulent personnaliser Ollama.
Changer l'emplacement de stockage des modèles
Section intitulée « Changer l'emplacement de stockage des modèles »Par défaut, Ollama stocke les modèles dans :
- Linux :
~/.ollama/models - Windows :
C:\Users\<user>\.ollama\models - macOS :
~/.ollama/models
Pour changer cet emplacement (par exemple, vers un disque plus grand) :
# Définir un nouvel emplacement avant de lancer Ollamaexport OLLAMA_MODELS="/chemin/vers/nouveau/dossier"
# Puis lancer Ollamaollama serveLimiter l'utilisation de la mémoire
Section intitulée « Limiter l'utilisation de la mémoire »Si Ollama consomme trop de RAM :
# Limiter à un seul modèle chargé à la foisexport OLLAMA_MAX_LOADED_MODELS=1
# Limiter la file d'attente des requêtesexport OLLAMA_MAX_QUEUE=4Exposer Ollama sur le réseau
Section intitulée « Exposer Ollama sur le réseau »Par défaut, Ollama n'écoute que sur localhost (127.0.0.1). Pour y accéder depuis d'autres machines sur votre réseau :
export OLLAMA_HOST="0.0.0.0:11434"ollama serveÀ retenir
Section intitulée « À retenir »- La plupart des blocages viennent d'un service non démarré ou d'un modèle absent : vérifiez
ollama serveetollama list. - Un petit modèle peut saturer la VRAM à cause du contexte : surveillez
ollama pset réduiseznum_ctxsi besoin. - Ollama n'a pas d'authentification : ne jamais exposer le port 11434 sur Internet, passez par un VPN ou un reverse proxy.
- Gardez Ollama à jour : les correctifs de sécurité sont fréquents.