
Vous avez probablement déjà utilisé ChatGPT ou un assistant IA similaire. C’est impressionnant, non ? Vous tapez une question, et en quelques secondes, vous obtenez une réponse détaillée, du code, une traduction… Mais avez-vous remarqué quelques inconvénients ?
- Chaque question coûte de l’argent (même si c’est quelques centimes)
- Vos conversations partent sur des serveurs distants (adieu confidentialité)
- Sans internet, plus d’IA (impossible de travailler hors ligne)
- Limites d’usage sur les versions gratuites (nombre de messages, files d’attente)
Et si je vous disais que vous pouvez avoir votre propre ChatGPT, gratuit, privé, et qui fonctionne même sans connexion internet ?
C’est exactement ce que permet Ollama. Et contrairement à ce que vous pourriez penser, ce n’est ni compliqué à installer, ni réservé aux experts. Dans ce guide, je vous accompagne pas à pas, de A à Z, pour que vous puissiez discuter avec une IA locale dans les 15 prochaines minutes.
Ce que vous allez apprendre
Section intitulée « Ce que vous allez apprendre »À la fin de ce guide, vous saurez :
- Installer Ollama sur votre ordinateur (Windows, Mac ou Linux)
- Télécharger et utiliser des modèles d’IA comme Llama, Mistral ou CodeLlama
- Discuter avec l’IA en ligne de commande et via Python
- Choisir le bon modèle selon vos besoins (code, texte, traduction…)
- Résoudre les problèmes courants si quelque chose ne fonctionne pas
Aucune connaissance préalable en intelligence artificielle n’est requise. Si vous savez ouvrir un terminal et taper une commande, vous avez tout ce qu’il faut.
Qu’est-ce qu’Ollama ? (explication détaillée)
Section intitulée « Qu’est-ce qu’Ollama ? (explication détaillée) »Avant de plonger dans l’installation, prenons quelques minutes pour comprendre ce qu’est vraiment Ollama et pourquoi c’est important. Cette compréhension vous aidera à mieux l’utiliser par la suite.
Le problème que résout Ollama
Section intitulée « Le problème que résout Ollama »Imaginez que vous êtes développeur et que vous voulez utiliser l’IA pour vous aider à coder. Vous avez trois options :
Option 1 : Utiliser ChatGPT (ou Claude, Gemini…)
Vous allez sur le site, vous tapez votre question, et vous obtenez une réponse. C’est pratique, mais :
- Votre code (potentiellement confidentiel) transite par les serveurs d’OpenAI
- Vous payez à l’usage (environ 0.01€ par question avec GPT-4)
- En cas de panne du service, vous êtes bloqué
Option 2 : Installer un modèle IA vous-même (sans Ollama)
C’est techniquement possible, mais c’est un cauchemar :
- Il faut télécharger les poids du modèle (plusieurs fichiers de plusieurs GB)
- Installer les bonnes versions de Python, PyTorch, CUDA…
- Configurer des dizaines de paramètres
- Écrire du code pour charger et utiliser le modèle
- Résultat : plusieurs heures de galère, même pour un développeur expérimenté
Option 3 : Utiliser Ollama
Ollama résout tous ces problèmes :
- Une seule commande pour installer un modèle
- Configuration automatique de tous les paramètres techniques
- Interface simple pour discuter avec l’IA
- Vos données restent locales
Qu’est-ce qu’un LLM exactement ?
Section intitulée « Qu’est-ce qu’un LLM exactement ? »Vous avez sûrement vu le terme LLM (Large Language Model). Mais que signifie-t-il concrètement ?
Un LLM est un programme informatique qui a été entraîné sur d’énormes quantités de texte (livres, articles, code source, pages web…). Grâce à cet entraînement, il a appris :
- Les règles de la langue : grammaire, orthographe, syntaxe
- Les connaissances du monde : histoire, science, actualités (jusqu’à sa date de coupure)
- Les patterns de raisonnement : comment résoudre des problèmes, structurer une réponse
- Les conventions du code : syntaxe des langages, bonnes pratiques, patterns courants
Quand vous posez une question à un LLM, il ne “cherche” pas la réponse dans une base de données. Il génère la réponse mot par mot, en prédisant quel mot est le plus probable après le précédent, compte tenu de votre question et de tout ce qu’il a appris.
Pourquoi “local” change tout
Section intitulée « Pourquoi “local” change tout »Quand vous utilisez ChatGPT :
- Vous tapez votre question
- Elle est envoyée aux serveurs d’OpenAI (aux États-Unis)
- Le modèle calcule la réponse sur leurs GPU
- La réponse vous est renvoyée
Quand vous utilisez Ollama :
- Vous tapez votre question
- Le modèle calcule la réponse sur votre propre processeur
- Rien ne sort de votre ordinateur
Conséquences concrètes :
| Aspect | ChatGPT (cloud) | Ollama (local) |
|---|---|---|
| Confidentialité | Vos données transitent par des serveurs tiers | Vos données restent sur votre machine |
| Coût | ~0.01-0.03€ par question (GPT-4) | Gratuit (après achat de l’ordinateur) |
| Internet | Obligatoire | Optionnel (après téléchargement du modèle) |
| Vitesse | Dépend de la latence réseau | Dépend de votre matériel |
| Disponibilité | Peut être saturé ou en maintenance | Toujours disponible |
| Personnalisation | Limitée | Totale (vous pouvez créer vos propres modèles) |
Les cas d’usage concrets
Section intitulée « Les cas d’usage concrets »Voici des scénarios réels où Ollama brille :
Scénario 1 : Le développeur soucieux de la confidentialité
Marie travaille sur un projet client sous NDA (accord de confidentialité). Elle ne peut pas copier son code dans ChatGPT — ce serait une violation du contrat. Avec Ollama, elle peut demander de l’aide sur son code sans qu’il quitte son ordinateur.
Scénario 2 : L’étudiant sans budget
Thomas prépare ses examens et aimerait avoir un assistant pour expliquer des concepts complexes. Les 20€/mois de ChatGPT Plus ne rentrent pas dans son budget étudiant. Avec Ollama, il a un assistant gratuit et illimité.
Scénario 3 : Le professionnel en déplacement
Sophie est consultante et passe beaucoup de temps dans le train. La connexion est instable. Avec Ollama, elle peut travailler avec l’IA même dans un tunnel.
Scénario 4 : L’entreprise avec des données sensibles
L’équipe data d’une banque veut utiliser l’IA pour analyser des rapports internes. Impossible d’envoyer ces données à OpenAI pour des raisons réglementaires. Ollama permet d’avoir l’IA en interne.
Vérifier que votre ordinateur est compatible
Section intitulée « Vérifier que votre ordinateur est compatible »Avant d’installer Ollama, vérifions que votre machine peut le faire tourner. Rassurez-vous : la plupart des ordinateurs récents (moins de 5-6 ans) sont compatibles.
La RAM : le facteur clé
Section intitulée « La RAM : le facteur clé »La mémoire vive (RAM) est le facteur le plus important. Voici pourquoi :
Quand vous lancez un modèle IA avec Ollama, celui-ci est entièrement chargé en mémoire. Si votre ordinateur n’a pas assez de RAM, le modèle ne pourra pas être chargé, ou sera très lent car il devra utiliser le disque dur (ce qu’on appelle le “swap”).
| RAM disponible | Modèles utilisables | Expérience |
|---|---|---|
| 4 GB | ❌ Insuffisant | Ollama refusera de lancer les modèles |
| 8 GB | Modèles légers (3B) | Fonctionnel mais limité |
| 16 GB | Modèles moyens (7B) | Bonne expérience pour la plupart des usages |
| 32 GB | Grands modèles (13B) | Excellente expérience |
| 64 GB+ | Très grands modèles (70B) | Usage professionnel |
Comment vérifier votre RAM ?
Sur Windows :
- Faites un clic droit sur la barre des tâches
- Cliquez sur “Gestionnaire des tâches”
- Allez dans l’onglet “Performances” → “Mémoire”
Sur macOS :
- Cliquez sur le menu Pomme 🍎
- “À propos de ce Mac”
- La RAM est indiquée (ex: “16 Go”)
Sur Linux :
# Afficher la RAM totalefree -hVous verrez quelque chose comme Mem: 15Gi (pour 16 GB).
L’espace disque
Section intitulée « L’espace disque »Chaque modèle IA occupe de l’espace sur votre disque dur. Voici les tailles typiques :
| Modèle | Taille sur disque |
|---|---|
| Llama 3.2 (3B) | ~2 GB |
| Mistral (7B) | ~4 GB |
| CodeLlama (7B) | ~4 GB |
| Llama 3.1 (70B) | ~40 GB |
Recommandation : Gardez au moins 20 GB libres pour pouvoir télécharger plusieurs modèles et les essayer.
Le GPU : optionnel mais utile
Section intitulée « Le GPU : optionnel mais utile »Une carte graphique (GPU) n’est pas obligatoire. Ollama fonctionne très bien sur CPU (processeur classique). La différence :
- Sans GPU : Une réponse prend 2-10 secondes
- Avec GPU NVIDIA : Une réponse prend 0.5-2 secondes
Si vous avez un GPU NVIDIA avec au moins 8 GB de VRAM, Ollama l’utilisera automatiquement. Sinon, pas de souci — le CPU fera le travail.
Récapitulatif des prérequis
Section intitulée « Récapitulatif des prérequis »| Composant | Minimum | Recommandé | Idéal |
|---|---|---|---|
| RAM | 8 GB | 16 GB | 32 GB |
| Disque | 10 GB libres | 50 GB libres | 100 GB+ (SSD) |
| Processeur | 64-bit moderne | Multicoeur récent | Apple M1+ ou Intel i7+ |
| GPU | Non requis | NVIDIA 8 GB VRAM | NVIDIA 16 GB+ VRAM |
| Système | Windows 10, macOS 10.15, Linux moderne |
Installation d’Ollama pas à pas
Section intitulée « Installation d’Ollama pas à pas »Maintenant que vous savez que votre machine est compatible, passons à l’installation. Je vais vous guider étape par étape selon votre système d’exploitation.
Installation sur Linux (Ubuntu, Debian, Fedora…)
Section intitulée « Installation sur Linux (Ubuntu, Debian, Fedora…) »Linux est le système le plus simple pour installer Ollama. Une seule commande suffit :
-
Ouvrez un terminal
Utilisez le raccourci
Ctrl + Alt + Tou cherchez “Terminal” dans vos applications. -
Lancez le script d’installation
Copiez-collez cette commande et appuyez sur Entrée :
Fenêtre de terminal curl -fsSL https://ollama.com/install.sh | shQue fait cette commande ?
curltélécharge le script d’installation depuis le site officiel d’Ollamashexécute ce script- Le script détecte automatiquement votre distribution Linux et installe Ollama
Le téléchargement et l’installation prennent généralement 1-2 minutes.
-
Vérifiez l’installation
Une fois terminé, vérifiez qu’Ollama est bien installé :
Fenêtre de terminal ollama --versionVous devriez voir quelque chose comme
ollama version 0.5.4(le numéro peut varier). -
Vérifiez que le service tourne
Ollama s’exécute en tant que service en arrière-plan. Vérifiez son état :
Fenêtre de terminal sudo systemctl status ollamaVous devriez voir
Active: active (running)en vert.
Si quelque chose ne va pas :
# Voir les logs du service pour diagnostiquersudo journalctl -u ollama -f
# Redémarrer le servicesudo systemctl restart ollamaInstallation sur Windows
Section intitulée « Installation sur Windows »-
Téléchargez l’installateur
Rendez-vous sur ollama.com/download et cliquez sur le bouton “Download for Windows”.
Le fichier
OllamaSetup.exesera téléchargé (environ 200 MB). -
Lancez l’installation
Double-cliquez sur le fichier téléchargé. Si Windows vous demande confirmation (“Voulez-vous autoriser cette application…”), cliquez sur “Oui”.
L’assistant d’installation apparaît. Cliquez sur “Install” et attendez quelques instants.
-
Vérifiez l’installation
Ouvrez PowerShell (cherchez “PowerShell” dans le menu Démarrer) et tapez :
Fenêtre de terminal ollama --versionSi vous voyez un numéro de version, l’installation est réussie !
-
Note importante : l’icône dans la barre des tâches
Après l’installation, vous verrez une petite icône Ollama (un lama) dans la zone de notification (en bas à droite). Ollama tourne en arrière-plan — c’est normal et nécessaire pour qu’il fonctionne.
Installation sur macOS
Section intitulée « Installation sur macOS »-
Téléchargez l’application
Rendez-vous sur ollama.com/download et cliquez sur “Download for macOS”.
Le fichier
Ollama-darwin.zipsera téléchargé. -
Installez l’application
Double-cliquez sur le fichier ZIP pour le décompresser. Vous obtenez l’application
Ollama.app.Glissez-déposez
Ollama.appdans votre dossier “Applications”. -
Lancez Ollama
Double-cliquez sur Ollama dans vos Applications. macOS peut vous demander de confirmer (“Ollama est une app téléchargée d’Internet…”) — cliquez sur “Ouvrir”.
Une icône de lama apparaîtra dans la barre de menu en haut de l’écran.
-
Vérifiez l’installation
Ouvrez le Terminal (Applications → Utilitaires → Terminal) et tapez :
Fenêtre de terminal ollama --versionVous devriez voir le numéro de version s’afficher.
Télécharger votre premier modèle
Section intitulée « Télécharger votre premier modèle »Ollama est installé, mais il lui manque le plus important : un modèle IA. C’est le “cerveau” qui va répondre à vos questions.
Comprendre les modèles disponibles
Section intitulée « Comprendre les modèles disponibles »Ollama donne accès à des dizaines de modèles. Pour commencer, je vous recommande Llama 3.2, développé par Meta (l’entreprise derrière Facebook). Pourquoi ce choix ?
- Récent : Sorti fin 2024, il intègre les dernières avancées
- Performant : Excellentes capacités en français et en anglais
- Léger : La version 3B ne pèse que 2 GB
- Polyvalent : Bon pour le texte, le code, la traduction…
Télécharger Llama 3.2
Section intitulée « Télécharger Llama 3.2 »Ouvrez votre terminal (ou PowerShell sur Windows) et tapez :
ollama pull llama3.2Que se passe-t-il exactement ?
- Ollama contacte son registre (une sorte de “magasin” de modèles)
- Il télécharge le modèle morceau par morceau (vous verrez une barre de progression)
- Il vérifie l’intégrité des fichiers téléchargés (pour s’assurer qu’ils ne sont pas corrompus)
- Il optimise le modèle pour votre machine
Le téléchargement prend généralement 2 à 10 minutes selon votre connexion internet. Vous verrez quelque chose comme :
pulling manifestpulling 74701a8c35f6... 50% ▓▓▓▓▓▓▓▓▓▓░░░░░░░░░░ 1.1 GB/2.0 GB 45 MB/sVérifier que le téléchargement a fonctionné
Section intitulée « Vérifier que le téléchargement a fonctionné »Une fois le téléchargement terminé, vérifiez que le modèle est bien installé :
ollama listVous devriez voir :
NAME ID SIZE MODIFIEDllama3.2:latest 74701a8c35f6 2.0 GB About a minute agoBravo ! Vous avez maintenant une IA locale prête à l’emploi.
Votre première conversation avec l’IA
Section intitulée « Votre première conversation avec l’IA »C’est le moment tant attendu : parler avec votre IA locale.
Lancer une session interactive
Section intitulée « Lancer une session interactive »Tapez cette commande :
ollama run llama3.2Après quelques secondes de chargement, vous verrez apparaître une invite de commande :
>>>C’est ici que vous allez taper vos questions. Le modèle attend votre message !
Exemple de conversation complète
Section intitulée « Exemple de conversation complète »Voici un exemple de ce que vous pouvez faire. Tapez exactement ce qui suit le >>> :
Vous :
>>> Bonjour ! Peux-tu te présenter ?L’IA répond :
Bonjour ! Je suis un assistant IA basé sur le modèle Llama 3.2, développé parMeta. Je suis conçu pour vous aider dans diverses tâches comme répondre à vosquestions, générer du texte, traduire, expliquer des concepts, et bien plusencore.
Je fonctionne entièrement sur votre ordinateur grâce à Ollama, ce qui signifieque vos conversations restent privées et ne sont envoyées nulle part.
Comment puis-je vous aider aujourd'hui ?Vous :
>>> Explique-moi ce qu'est Docker comme si j'avais 10 ansL’IA répond :
Imagine que tu veux jouer à un jeu vidéo chez ton ami. Mais le jeu a besoin deplein de choses sur l'ordinateur : des fichiers spéciaux, des réglagesparticuliers... Si ton ami n'a pas exactement les mêmes choses, le jeu nemarchera pas !
Docker, c'est comme une boîte magique où tu mets ton jeu avec TOUT ce dont il abesoin. Quand tu donnes cette boîte à ton ami, il peut ouvrir la boîte et le jeumarche tout de suite, même si son ordinateur est différent du tien.
Les développeurs utilisent Docker pour mettre leurs programmes dans des "boîtes"(on appelle ça des "conteneurs"). Comme ça, le programme marche pareil partout,sur n'importe quel ordinateur !Vous :
>>> Super ! Maintenant, écris-moi une fonction Python qui compte les mots dans une phraseL’IA répond :
def compter_mots(phrase): """ Compte le nombre de mots dans une phrase.
Args: phrase (str): La phrase à analyser
Returns: int: Le nombre de mots """ # Supprimer les espaces au début et à la fin phrase = phrase.strip()
# Si la phrase est vide, retourner 0 if not phrase: return 0
# Séparer la phrase en mots et compter mots = phrase.split() return len(mots)
# Exemple d'utilisationtexte = "Bonjour, comment allez-vous aujourd'hui ?"nombre = compter_mots(texte)print(f"La phrase contient {nombre} mots.")Quitter la session
Section intitulée « Quitter la session »Pour terminer la conversation, tapez :
>>> /byeVous reviendrez à votre terminal normal.
Astuces pour de meilleures réponses
Section intitulée « Astuces pour de meilleures réponses »L’IA fonctionne mieux quand vous lui donnez des instructions claires et détaillées. Voici quelques techniques :
❌ Question vague :
>>> Parle-moi de Python✅ Question précise :
>>> Explique les différences entre les listes et les tuples en Python, avec des exemples de cas où utiliser l'un plutôt que l'autre❌ Demande générique :
>>> Écris du code✅ Demande contextualisée :
>>> Écris une fonction Python qui prend une liste de nombres et retourne la moyenne, en gérant le cas où la liste est vide. Ajoute des commentaires explicatifs.Commandes Ollama essentielles
Section intitulée « Commandes Ollama essentielles »Maintenant que vous savez discuter avec l’IA, voici les commandes indispensables à connaître.
Gérer vos modèles
Section intitulée « Gérer vos modèles »# Lister tous les modèles installés sur votre machineollama list
# Télécharger un nouveau modèle (exemple : Mistral)ollama pull mistral
# Supprimer un modèle pour libérer de l'espace disqueollama rm mistral
# Voir les détails d'un modèle (taille, paramètres, licence...)ollama show llama3.2Lancer des commandes ponctuelles
Section intitulée « Lancer des commandes ponctuelles »Vous n’êtes pas obligé d’ouvrir une session interactive. Vous pouvez poser une question unique :
# Poser une question et obtenir la réponse immédiatementollama run llama3.2 "Quelle est la capitale de l'Australie ?"La réponse s’affiche, puis vous revenez au terminal. C’est pratique pour des questions rapides ou pour intégrer Ollama dans des scripts.
Utiliser plusieurs modèles
Section intitulée « Utiliser plusieurs modèles »Vous pouvez installer plusieurs modèles et basculer entre eux :
# Installer plusieurs modèlesollama pull llama3.2ollama pull mistralollama pull codellama
# Utiliser Mistral pour cette questionollama run mistral "Écris un haïku sur l'automne"
# Utiliser CodeLlama pour du codeollama run codellama "Écris une regex pour valider une adresse email"Utiliser Ollama avec Python
Section intitulée « Utiliser Ollama avec Python »Ollama n’est pas limité à la ligne de commande. Vous pouvez l’intégrer dans vos programmes Python pour automatiser des tâches ou créer des applications.
L’API REST d’Ollama
Section intitulée « L’API REST d’Ollama »Quand Ollama tourne, il expose une API REST sur le port 11434 de votre machine. C’est une interface qui permet à n’importe quel programme de communiquer avec l’IA.
Tester que l’API fonctionne :
curl http://localhost:11434/api/tagsVous devriez voir la liste de vos modèles au format JSON.
Appeler Ollama depuis Python
Section intitulée « Appeler Ollama depuis Python »Il existe plusieurs façons d’utiliser Ollama en Python. La plus simple est avec la bibliothèque litellm qui fournit une interface unifiée :
# Installer litellmpip install litellmExemple de code Python :
import litellm
# Configuration : utiliser Ollama en localresponse = litellm.completion( model="ollama/llama3.2", # Format : ollama/nom-du-modele messages=[ {"role": "user", "content": "Explique-moi ce qu'est une API REST en 3 phrases simples"} ])
# Afficher la réponseprint(response.choices[0].message['content'])Résultat :
Une API REST est comme un serveur de restaurant : vous passez commande (unerequête), et le serveur vous apporte le plat (une réponse). Elle utilise lesméthodes HTTP standard (GET, POST, PUT, DELETE) pour effectuer des opérationssur des ressources. C'est le moyen le plus courant pour que des applicationscommuniquent entre elles sur internet.Exemple pratique : un assistant de code
Section intitulée « Exemple pratique : un assistant de code »Voici un script Python plus complet qui analyse du code :
import litellm
def analyser_code(code: str) -> str: """ Demande à l'IA d'analyser un morceau de code et de suggérer des améliorations. """ prompt = f"""Analyse le code Python suivant et donne-moi :1. Ce que fait ce code2. Les problèmes potentiels3. Des suggestions d'amélioration
Code à analyser :```python{code}```"""
response = litellm.completion( model="ollama/llama3.2", messages=[{"role": "user", "content": prompt}] )
return response.choices[0].message['content']
# Exemple d'utilisationcode_a_analyser = '''def calc(x,y): return x+y'''
print(analyser_code(code_a_analyser))Résultat :
## Analyse du code
### 1. Ce que fait ce codeCette fonction `calc` prend deux paramètres `x` et `y` et retourne leur somme.
### 2. Problèmes potentiels- Le nom `calc` est vague — on ne sait pas ce qu'elle calcule- Pas de gestion des types — que se passe-t-il si on passe des chaînes ?- Pas de documentation (docstring)- Formatage non conforme à PEP 8 (espaces manquants)
### 3. Suggestions d'amélioration
def additionner(a: int | float, b: int | float) -> int | float: """ Additionne deux nombres.
Args: a: Premier nombre b: Second nombre
Returns: La somme de a et b
Raises: TypeError: Si a ou b n'est pas un nombre """ if not isinstance(a, (int, float)) or not isinstance(b, (int, float)): raise TypeError("Les arguments doivent être des nombres") return a + bPour des projets plus avancés comme la création d’un chatbot qui répond aux questions sur vos propres documents, consultez le guide RAG : connecter les LLM à vos données.
Cas d’usage détaillés
Section intitulée « Cas d’usage détaillés »Découvrez des applications concrètes d’Ollama avec des exemples complets que vous pouvez reproduire.
Assistant de programmation
Section intitulée « Assistant de programmation »Utilisez Ollama comme copilote de code. Voici un exemple où l’IA explique et améliore du code existant :
ollama run codellama "Explique ce code Python et suggère des améliorations:def fibonacci(n): if n <= 1: return n return fibonacci(n-1) + fibonacci(n-2)"L’IA vous expliquera que cette implémentation récursive a une complexité exponentielle et proposera une version optimisée avec mémoïsation ou une approche itérative.
Traduction de documents professionnels
Section intitulée « Traduction de documents professionnels »Automatisez vos traductions en conservant un style professionnel :
ollama run llama3.2 "Traduis ce texte anglais en français professionnel, en conservant le ton formel :'We are pleased to announce the launch of our new product. This solution addresses the key challenges faced by enterprises in managing their cloud infrastructure.'"Génération de contenu marketing
Section intitulée « Génération de contenu marketing »Créez du contenu marketing rapidement :
ollama run mistral "Écris une description produit attrayante pour une application de fitness mobile destinée aux débutants. La description doit faire 150 mots et mettre en avant 3 avantages clés."Analyse de sentiment
Section intitulée « Analyse de sentiment »Analysez automatiquement le ton des retours clients :
ollama run llama3.2 "Analyse le sentiment de ce commentaire client et identifie les points positifs et négatifs :'Le produit est de bonne qualité et fonctionne comme décrit. Cependant, la livraison a pris 2 semaines au lieu des 3 jours annoncés, ce qui est vraiment décevant. Le support client a été réactif pour me donner des nouvelles.'"Dépannage des problèmes courants
Section intitulée « Dépannage des problèmes courants »Même si Ollama est simple d’utilisation, vous pouvez rencontrer quelques difficultés. Voici les problèmes les plus fréquents et leurs solutions.
”Error: could not connect to ollama”
Section intitulée « ”Error: could not connect to ollama” »Le problème : Ollama ne répond pas quand vous tapez une commande.
Causes possibles et solutions :
-
Le service Ollama n’est pas démarré
Sur Linux :
Fenêtre de terminal sudo systemctl start ollamasudo systemctl status ollama # Vérifier l'étatSur Windows : Vérifiez que l’icône Ollama est présente dans la zone de notification. Si non, relancez l’application Ollama.
Sur macOS : Cliquez sur l’icône Ollama dans la barre de menu et vérifiez qu’il est “Running”.
-
Un pare-feu bloque le port 11434
Ollama utilise le port 11434. Si vous avez un pare-feu strict, autorisez ce port en local.
”Error: model not found”
Section intitulée « ”Error: model not found” »Le problème : Vous essayez d’utiliser un modèle qui n’est pas installé.
Solution :
# Vérifier les modèles installésollama list
# Télécharger le modèle manquantollama pull nom-du-modele“Error: out of memory” ou performances très lentes
Section intitulée « “Error: out of memory” ou performances très lentes »Le problème : Votre machine n’a pas assez de RAM pour le modèle choisi.
Solutions :
-
Utilisez un modèle plus petit
Fenêtre de terminal # Au lieu de mistral (7B), essayez phi (1.5B)ollama pull phiollama run phi "Votre question" -
Fermez d’autres applications pour libérer de la RAM
-
Vérifiez l’utilisation mémoire :
Sur Linux/macOS :
Fenêtre de terminal free -h # Voir la RAM disponiblehtop # Voir les processus gourmandsSur Windows : Ouvrez le Gestionnaire des tâches (Ctrl+Shift+Échap)
Les réponses sont très lentes
Section intitulée « Les réponses sont très lentes »Causes possibles et solutions :
-
Modèle trop grand pour votre machine → Passez à un modèle plus petit
-
Première requête après le lancement : Le modèle doit être chargé en mémoire. C’est normal que la première réponse soit plus longue (10-30 secondes). Les suivantes seront rapides.
-
Autres processus utilisent le CPU → Fermez les applications lourdes
-
Vous n’utilisez pas le GPU alors qu’il est disponible :
Fenêtre de terminal # Vérifier si Ollama utilise le GPUollama run llama3.2 "Test"# Regardez l'utilisation GPU avec nvidia-smi (si NVIDIA)
Le modèle donne des réponses incohérentes
Section intitulée « Le modèle donne des réponses incohérentes »Le problème : Les réponses sont confuses, hors-sujet, ou répétitives.
Solutions :
-
Reformulez votre question de manière plus précise et structurée
-
Essayez un autre modèle — certains sont meilleurs pour certaines tâches
-
Commencez une nouvelle conversation — parfois le contexte précédent “pollue” les réponses :
Fenêtre de terminal # Quitter et relancer>>> /byeollama run llama3.2
Configuration avancée (optionnel)
Section intitulée « Configuration avancée (optionnel) »Cette section est destinée aux utilisateurs avancés qui veulent personnaliser Ollama.
Changer l’emplacement de stockage des modèles
Section intitulée « Changer l’emplacement de stockage des modèles »Par défaut, Ollama stocke les modèles dans :
- Linux :
~/.ollama/models - Windows :
C:\Users\<user>\.ollama\models - macOS :
~/.ollama/models
Pour changer cet emplacement (par exemple, vers un disque plus grand) :
# Définir un nouvel emplacement avant de lancer Ollamaexport OLLAMA_MODELS="/chemin/vers/nouveau/dossier"
# Puis lancer Ollamaollama serveLimiter l’utilisation de la mémoire
Section intitulée « Limiter l’utilisation de la mémoire »Si Ollama consomme trop de RAM :
# Limiter à un seul modèle chargé à la foisexport OLLAMA_MAX_LOADED_MODELS=1
# Limiter la file d'attente des requêtesexport OLLAMA_MAX_QUEUE=4Exposer Ollama sur le réseau
Section intitulée « Exposer Ollama sur le réseau »Par défaut, Ollama n’écoute que sur localhost (127.0.0.1). Pour y accéder depuis d’autres machines sur votre réseau :
export OLLAMA_HOST="0.0.0.0:11434"ollama serveConclusion et prochaines étapes
Section intitulée « Conclusion et prochaines étapes »Félicitations ! Vous avez maintenant votre propre assistant IA fonctionnant sur votre ordinateur. Récapitulons ce que vous avez appris :
- ✅ Comprendre ce qu’est un LLM et pourquoi le local est avantageux
- ✅ Installer Ollama sur votre système
- ✅ Télécharger des modèles comme Llama 3.2
- ✅ Converser avec l’IA en ligne de commande
- ✅ Intégrer Ollama dans vos programmes Python
- ✅ Résoudre les problèmes courants
Ollama transforme votre ordinateur en station IA personnelle. Vous pouvez maintenant expérimenter, coder, rédiger et apprendre avec un assistant disponible 24h/24, sans abonnement et sans envoyer vos données à des tiers.
Pour aller plus loin
Section intitulée « Pour aller plus loin »Ollama ouvre la porte à de nombreuses possibilités. Voici des guides pour approfondir :
Questions fréquentes
Section intitulée « Questions fréquentes »Ollama est une plateforme open source qui permet d'exécuter des modèles de langage (LLM) directement sur votre ordinateur, sans passer par des API payantes.
Analogie simple
Pensez à Ollama comme un lecteur de musique local (VLC) par opposition à un service de streaming (Spotify). Avec Ollama, vous possédez les modèles, vous n'avez pas besoin d'internet pour les utiliser, et vos conversations restent privées.
Caractéristiques clés
| Avantage | Description |
|---|---|
| Gratuit | Aucun coût d'utilisation après téléchargement |
| Privé | Vos données ne quittent jamais votre machine |
| Hors ligne | Fonctionne sans connexion internet |
| Simple | Une seule commande pour installer et utiliser |
Installation rapide
# Linux/macOS
curl -fsSL https://ollama.com/install.sh | sh
# Lancer votre premier modèle
ollama run llama3.2
Cas d'usage
- Développement : génération de code, debugging
- Rédaction : traduction, résumés, reformulation
- Apprentissage : expérimenter avec l'IA sans frais
- Entreprise : traitement de données sensibles en local
Ollama et ChatGPT sont deux façons différentes d'accéder à l'intelligence artificielle. L'un est local et gratuit, l'autre est en ligne et payant.
Comparaison détaillée
| Aspect | Ollama | ChatGPT |
|---|---|---|
| Exécution | Sur votre PC (local) | Serveurs OpenAI (cloud) |
| Coût | Gratuit | Gratuit limité / 20$/mois (Plus) |
| Confidentialité | Données restent locales | Données transitent par OpenAI |
| Internet | Non requis après installation | Obligatoire |
| Performance | Dépend de votre matériel | Constante (serveurs puissants) |
| Modèles | Llama, Mistral, Gemma... | GPT-3.5, GPT-4, GPT-4o |
| Qualité réponses | Très bonne (modèles open source) | Excellente (modèles propriétaires) |
Quand choisir Ollama ?
- Traitement de données confidentielles (code propriétaire, documents internes)
- Budget limité ou usage intensif
- Besoin de fonctionner hors ligne
- Expérimentation et apprentissage
Quand choisir ChatGPT ?
- Besoin de la meilleure qualité de réponse possible
- PC peu puissant (< 8 GB RAM)
- Accès à des fonctionnalités avancées (plugins, code interpreter)
Exemple de coût
100 questions/jour pendant 1 mois :
- ChatGPT Plus : 20€
- API OpenAI GPT-4 : ~50€
- Ollama : 0€ (juste l'électricité)
Un LLM (Large Language Model ou Modèle de Langage de Grande Taille) est un programme d'intelligence artificielle entraîné à comprendre et générer du texte.
Comment ça marche ?
┌─────────────────────────────────────┐
│ Entraînement │
│ Internet, livres, code, articles │
│ (milliards de textes) │
└──────────────┬──────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ Modèle LLM │
│ (milliards de "neurones") │
│ Comprend les patterns du langage │
└──────────────┬──────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ Utilisation │
│ Vous posez une question → │
│ Le modèle prédit la suite │
└─────────────────────────────────────┘
Tailles de modèles
Le nombre après le nom (3B, 7B, 70B) indique le nombre de paramètres :
| Taille | RAM requise | Performance | Exemple |
|---|---|---|---|
| 3B | 4 GB | Basique, rapide | llama3.2:3b |
| 7-8B | 8 GB | Équilibré | llama3.1:8b, mistral |
| 13B | 16 GB | Très bon | llama2:13b |
| 70B | 64 GB+ | État de l'art | llama3.1:70b |
Exemples de LLM populaires
- Llama (Meta) : polyvalent, excellente qualité
- Mistral (Mistral AI) : performant, optimisé Europe
- CodeLlama : spécialisé programmation
- Gemma (Google) : léger, efficace
- Phi (Microsoft) : compact mais puissant
La configuration dépend de la taille des modèles que vous souhaitez utiliser. La bonne nouvelle : un PC standard récent suffit pour les modèles légers.
Configuration minimale vs recommandée
| Composant | Minimum | Recommandé | Optimal |
|---|---|---|---|
| RAM | 8 GB | 16 GB | 32 GB+ |
| Stockage | 10 GB SSD | 50 GB SSD | 100 GB+ NVMe |
| CPU | 4 cœurs | 8 cœurs | 12+ cœurs |
| GPU | Non requis | NVIDIA 8 GB | NVIDIA 16 GB+ |
Quel modèle pour quelle RAM ?
RAM disponible → Modèle recommandé
───────────────────────────────────
8 GB → llama3.2:3b, gemma:2b
16 GB → llama3.1:8b, mistral, codellama
32 GB → llama3.1:13b, mixtral
64 GB+ → llama3.1:70b
GPU : obligatoire ou pas ?
Non, un GPU n'est pas obligatoire. Les modèles fonctionnent sur CPU, ils sont juste plus lents :
| Configuration | Temps de réponse |
|---|---|
| CPU seul | 2-10 secondes |
| GPU entrée de gamme (GTX 1660) | 1-3 secondes |
| GPU milieu de gamme (RTX 3060) | 0.5-1 seconde |
| GPU haut de gamme (RTX 4090) | < 0.5 seconde |
Vérifier vos ressources
# Linux : mémoire disponible
free -h
# Vérifier le GPU NVIDIA
nvidia-smi
# macOS : mémoire
system_profiler SPHardwareDataType | grep Memory
Pour débuter, je recommande Llama 3.2 (3B) : il est léger, rapide et polyvalent.
Guide de choix par usage
| Votre besoin | Modèle recommandé | Commande |
|---|---|---|
| Débutant absolu | Llama 3.2 (3B) | ollama pull llama3.2 |
| Usage général | Llama 3.1 (8B) | ollama pull llama3.1:8b |
| Programmation | CodeLlama | ollama pull codellama |
| PC limité (< 8 GB RAM) | Gemma 2B | ollama pull gemma:2b |
| Français de qualité | Mistral | ollama pull mistral |
| Performance maximale | Llama 3.1 70B | ollama pull llama3.1:70b |
Comparatif des modèles populaires
| Modèle | Taille | Forces | Faiblesses |
|---|---|---|---|
| Llama 3.2 | 2 GB | Rapide, polyvalent | Moins précis sur tâches complexes |
| Llama 3.1 8B | 4.7 GB | Excellent rapport qualité/taille | Nécessite 16 GB RAM |
| Mistral | 4.1 GB | Très bon en français | Un peu plus lent |
| CodeLlama | 3.8 GB | Expert en code | Moins bon pour le texte général |
| Gemma 2B | 1.4 GB | Ultra léger | Capacités limitées |
Tester plusieurs modèles
# Télécharger plusieurs modèles
ollama pull llama3.2
ollama pull mistral
ollama pull codellama
# Comparer les réponses sur une même question
ollama run llama3.2 "Explique Docker en 3 phrases"
ollama run mistral "Explique Docker en 3 phrases"
Mon conseil
Commencez par llama3.2, puis testez mistral si vous travaillez beaucoup en français, et codellama si vous faites de la programmation.
L'installation sur Linux se fait en une seule commande via le script officiel.
Installation rapide
# Télécharger et installer Ollama
curl -fsSL https://ollama.com/install.sh | sh
Cette commande :
- Détecte votre distribution Linux
- Télécharge le binaire Ollama
- Crée un service systemd
- Configure les permissions
Vérification de l'installation
# Vérifier la version
ollama --version
# Vérifier le service
sudo systemctl status ollama
# Tester avec un premier modèle
ollama run llama3.2 "Bonjour !"
Distributions supportées
| Distribution | Support | Notes |
|---|---|---|
| Ubuntu 20.04+ | ✅ Officiel | Recommandé |
| Debian 11+ | ✅ Officiel | |
| Fedora 38+ | ✅ Officiel | |
| CentOS/RHEL 8+ | ✅ Officiel | |
| Arch Linux | ✅ AUR | yay -S ollama |
| Alpine | ⚠️ Manuel | Nécessite glibc |
Emplacement des fichiers
# Binaire
/usr/local/bin/ollama
# Modèles téléchargés
~/.ollama/models/
# Service systemd
/etc/systemd/system/ollama.service
# Logs
journalctl -u ollama -f
Avec GPU NVIDIA
# Vérifier que le driver est installé
nvidia-smi
# Ollama détecte automatiquement le GPU
# Vérifier avec :
ollama run llama3.2 --verbose
L'installation sur Windows se fait via un installateur graphique ou en ligne de commande.
Méthode 1 : Installateur graphique (recommandé)
- Téléchargez l'installateur depuis ollama.com/download
- Double-cliquez sur
OllamaSetup.exe - Suivez l'assistant d'installation
- Redémarrez si demandé
Méthode 2 : Winget (ligne de commande)
# PowerShell en administrateur
winget install Ollama.Ollama
Vérification de l'installation
# Ouvrir PowerShell ou Terminal
ollama --version
# Tester avec un modèle
ollama run llama3.2 "Bonjour !"
Emplacement des fichiers
C:\Users\<VotreNom>\.ollama\ # Modèles
C:\Users\<VotreNom>\AppData\Local\Ollama\ # Application
Avec GPU NVIDIA sur Windows
# Vérifier le driver NVIDIA
nvidia-smi
# Si pas installé, télécharger depuis
# https://www.nvidia.com/Download/index.aspx
Prérequis Windows
| Élément | Requis |
|---|---|
| Windows | 10 (64-bit) ou 11 |
| RAM | 8 GB minimum |
| Espace | 5 GB + modèles |
| WSL2 | Non requis (natif Windows) |
L'installation sur macOS est très simple, que vous ayez un Mac Intel ou Apple Silicon (M1/M2/M3/M4).
Méthode 1 : Application (recommandé)
- Téléchargez depuis ollama.com/download
- Ouvrez le fichier
.dmg - Glissez Ollama dans Applications
- Lancez Ollama depuis le Launchpad
Méthode 2 : Homebrew
brew install ollama
# Lancer le service
brew services start ollama
Vérification
# Dans le Terminal
ollama --version
# Tester avec un modèle
ollama run llama3.2 "Bonjour !"
Performance Apple Silicon vs Intel
| Processeur | Performance | Notes |
|---|---|---|
| M1 | ⭐⭐⭐⭐ | Excellente, GPU unifié |
| M2/M3/M4 | ⭐⭐⭐⭐⭐ | Optimale |
| Intel | ⭐⭐⭐ | Correcte, CPU uniquement |
Les Mac Apple Silicon bénéficient de l'accélération GPU native grâce à Metal, sans configuration supplémentaire.
Emplacement des fichiers
# Modèles
~/.ollama/models/
# Application
/Applications/Ollama.app
# Logs
~/Library/Logs/Ollama/
RAM recommandée
| Modèle Mac | Modèles utilisables |
|---|---|
| 8 GB | llama3.2, gemma:2b |
| 16 GB | llama3.1:8b, mistral, codellama |
| 32 GB+ | llama3.1:70b, mixtral |
L'erreur "Out of memory" signifie que votre ordinateur n'a pas assez de RAM pour charger le modèle. Voici les solutions.
Diagnostic rapide
# Linux : vérifier la mémoire disponible
free -h
# macOS
vm_stat | head -5
# Windows PowerShell
Get-Process | Sort-Object WorkingSet -Descending | Select-Object -First 10
Solution 1 : Utiliser un modèle plus petit
C'est la solution la plus simple et efficace :
# Au lieu de
ollama run llama3.1:70b # ❌ Nécessite 64 GB RAM
# Utilisez
ollama run llama3.2 # ✅ 4 GB RAM suffisent
ollama run gemma:2b # ✅ Ultra léger, 2 GB RAM
Solution 2 : Libérer de la mémoire
# Fermer les applications gourmandes
# - Navigateur avec beaucoup d'onglets
# - IDE (VS Code, IntelliJ)
# - Docker, machines virtuelles
# Linux : voir les processus gourmands
ps aux --sort=-%mem | head -10
# Tuer un processus si nécessaire
kill -9 <PID>
Solution 3 : Configurer Ollama
# Limiter le nombre de modèles en mémoire
export OLLAMA_MAX_LOADED_MODELS=1
# Réduire la file d'attente
export OLLAMA_MAX_QUEUE=2
# Relancer Ollama
sudo systemctl restart ollama
Solution 4 : Augmenter le swap (dernier recours)
# Linux : ajouter du swap temporaire
sudo fallocate -l 8G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
⚠️ Attention : utiliser le swap dégrade fortement les performances.
L'erreur "Connection refused" ou "Service unavailable" indique que le service Ollama n'est pas démarré ou n'est pas accessible.
Diagnostic
# Vérifier si le service tourne
sudo systemctl status ollama
# Vérifier les processus
ps aux | grep ollama
# Tester la connexion
curl http://localhost:11434/api/version
Solution 1 : Démarrer/redémarrer le service
# Linux (systemd)
sudo systemctl start ollama
sudo systemctl enable ollama # Démarrage auto au boot
# Ou redémarrer si déjà actif
sudo systemctl restart ollama
Solution 2 : Lancer manuellement
# Si le service pose problème
ollama serve
# Dans un autre terminal
ollama run llama3.2
Solution 3 : Vérifier les logs
# Voir les erreurs
sudo journalctl -u ollama -f
# Erreurs courantes :
# - "address already in use" → port occupé
# - "permission denied" → problème de droits
# - "no such file" → installation corrompue
Solution 4 : Port occupé
# Trouver ce qui utilise le port 11434
sudo lsof -i :11434
sudo netstat -tulpn | grep 11434
# Tuer le processus qui bloque
sudo kill -9 <PID>
# Ou changer le port Ollama
export OLLAMA_HOST="127.0.0.1:8080"
ollama serve
Solution 5 : Réinstaller Ollama
# Désinstaller
sudo rm /usr/local/bin/ollama
sudo rm -rf ~/.ollama
# Réinstaller
curl -fsSL https://ollama.com/install.sh | sh
L'erreur "Model not found" signifie que le modèle demandé n'existe pas localement ou que le nom est incorrect.
Diagnostic
# Lister les modèles installés
ollama list
# Exemple de sortie :
# NAME ID SIZE MODIFIED
# llama3.2:latest abc123... 2.0 GB 2 hours ago
# mistral:latest def456... 4.1 GB 1 day ago
Solution 1 : Vérifier le nom exact
# ❌ Erreurs courantes
ollama run llama3 # Manque la version
ollama run llama-3.2 # Tiret au lieu de point
ollama run Llama3.2 # Majuscule
# ✅ Noms corrects
ollama run llama3.2
ollama run llama3.2:latest
ollama run mistral:latest
Solution 2 : Télécharger le modèle
# Si le modèle n'est pas installé
ollama pull llama3.2
# Avec une version spécifique
ollama pull llama3.1:8b
ollama pull codellama:7b-instruct
Solution 3 : Trouver le bon nom
# Chercher dans la bibliothèque officielle
# https://ollama.com/library
# Modèles populaires et leurs noms exacts :
ollama pull llama3.2 # Meta Llama 3.2
ollama pull mistral # Mistral 7B
ollama pull codellama # Code Llama
ollama pull gemma:2b # Google Gemma 2B
ollama pull phi3 # Microsoft Phi-3
Solution 4 : Corruption du modèle
# Supprimer et retélécharger
ollama rm llama3.2
ollama pull llama3.2
# Vérifier l'intégrité
ollama show llama3.2
Si le téléchargement des modèles échoue ou reste bloqué, voici les solutions.
Diagnostic
# Tester la connexion au registre Ollama
curl -I https://registry.ollama.ai
# Vérifier votre connexion
ping 8.8.8.8
Solution 1 : Vérifier la connexion internet
# Test de base
curl -v https://ollama.com
# Si erreur de certificat
curl -k https://ollama.com
Solution 2 : Configurer un proxy
# Si vous êtes derrière un proxy d'entreprise
export HTTP_PROXY="http://proxy.example.com:8080"
export HTTPS_PROXY="http://proxy.example.com:8080"
export NO_PROXY="localhost,127.0.0.1"
# Puis relancer
ollama pull llama3.2
Solution 3 : Reprendre un téléchargement interrompu
# Ollama reprend automatiquement les téléchargements
ollama pull llama3.2
# Si bloqué, annuler (Ctrl+C) et relancer
Solution 4 : Téléchargement manuel (avancé)
Si le téléchargement via Ollama échoue systématiquement :
# 1. Trouver l'URL du modèle sur Hugging Face
# https://huggingface.co/meta-llama
# 2. Télécharger le fichier GGUF manuellement
# 3. Créer un Modelfile
echo 'FROM ./model.gguf' > Modelfile
# 4. Importer dans Ollama
ollama create mon-modele -f Modelfile
Solution 5 : Espace disque insuffisant
# Vérifier l'espace disponible
df -h ~/.ollama
# Supprimer les anciens modèles
ollama list
ollama rm modele-inutilise
# Nettoyer le cache
rm -rf ~/.ollama/models/blobs/*.tmp
Le port 11434 est le port par défaut d'Ollama. Si un autre processus l'utilise, Ollama ne peut pas démarrer.
Diagnostic
# Trouver ce qui utilise le port
sudo lsof -i :11434
# Ou avec netstat
sudo netstat -tulpn | grep 11434
# Exemple de sortie :
# ollama 12345 user 3u IPv4 ... TCP *:11434 (LISTEN)
Solution 1 : Arrêter le processus concurrent
# Identifier le PID
sudo lsof -i :11434 -t
# Arrêter proprement
kill <PID>
# Ou forcer l'arrêt
kill -9 <PID>
Solution 2 : Changer le port Ollama
# Définir un nouveau port
export OLLAMA_HOST="127.0.0.1:8080"
# Lancer Ollama sur ce port
ollama serve
# Dans vos scripts, utiliser :
curl http://localhost:8080/api/generate ...
Solution 3 : Configuration permanente (systemd)
# Éditer le service
sudo systemctl edit ollama
# Ajouter :
[Service]
Environment="OLLAMA_HOST=127.0.0.1:8080"
# Recharger et redémarrer
sudo systemctl daemon-reload
sudo systemctl restart ollama
Solution 4 : Plusieurs instances Ollama
Si vous avez besoin de plusieurs instances :
# Terminal 1 : instance principale (port 11434)
ollama serve
# Terminal 2 : instance secondaire (port 11435)
OLLAMA_HOST=127.0.0.1:11435 ollama serve
Ollama détecte et utilise automatiquement les GPU NVIDIA si les drivers sont correctement installés.
Prérequis
- GPU NVIDIA compatible CUDA (GTX 10xx+, RTX series)
- Driver NVIDIA récent (version 525+)
- CUDA Toolkit (installé avec le driver)
Vérification du GPU
# Vérifier que le driver est installé
nvidia-smi
# Exemple de sortie :
# +-----------------------------------------------------------------------------+
# | NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 |
# | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
# | 0 NVIDIA GeForce RTX 3060 Off | 00000000:01:00.0 On | N/A |
# +-----------------------------------------------------------------------------+
Vérifier qu'Ollama utilise le GPU
# Lancer en mode verbose
ollama run llama3.2 --verbose
# Chercher dans les logs :
# "using CUDA"
# "GPU: NVIDIA GeForce RTX 3060"
# Surveiller l'utilisation GPU pendant une requête
watch -n 1 nvidia-smi
Installation du driver NVIDIA (si manquant)
# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-535
sudo reboot
# Fedora
sudo dnf install akmod-nvidia
sudo reboot
VRAM requise par modèle
| Modèle | VRAM GPU |
|---|---|
| llama3.2 (3B) | 4 GB |
| llama3.1 (8B) | 8 GB |
| mistral (7B) | 6 GB |
| llama3.1 (70B) | 48 GB+ (multi-GPU) |
Forcer l'utilisation CPU (désactiver GPU)
# Si vous voulez utiliser le CPU malgré un GPU
export CUDA_VISIBLE_DEVICES=""
ollama serve
Ollama expose une API REST sur le port 11434, permettant d'intégrer l'IA dans vos applications.
Endpoints principaux
| Endpoint | Méthode | Description |
|---|---|---|
/api/generate |
POST | Génération de texte |
/api/chat |
POST | Conversation (avec historique) |
/api/embeddings |
POST | Générer des embeddings |
/api/tags |
GET | Lister les modèles |
/api/show |
POST | Infos sur un modèle |
/api/pull |
POST | Télécharger un modèle |
Exemple : Génération simple
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Explique Docker en 2 phrases",
"stream": false
}'
Exemple : Conversation (chat)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role": "user", "content": "Bonjour !"},
{"role": "assistant", "content": "Bonjour ! Comment puis-je vous aider ?"},
{"role": "user", "content": "Explique-moi ce qu est Kubernetes"}
],
"stream": false
}'
Exemple : Embeddings (pour RAG)
curl http://localhost:11434/api/embeddings -d '{
"model": "llama3.2",
"prompt": "Docker est une plateforme de conteneurisation"
}'
Intégration Python
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "llama3.2",
"prompt": "Écris un haiku sur Python",
"stream": False
}
)
print(response.json()["response"])
Mode streaming (réponses en temps réel)
import requests
import json
response = requests.post(
"http://localhost:11434/api/generate",
json={"model": "llama3.2", "prompt": "Raconte une histoire"},
stream=True
)
for line in response.iter_lines():
if line:
data = json.loads(line)
print(data.get("response", ""), end="", flush=True)
Les modèles sont stockés dans un répertoire local, dont l'emplacement dépend de votre système d'exploitation.
Emplacements par défaut
| Système | Emplacement |
|---|---|
| Linux | ~/.ollama/models/ |
| macOS | ~/.ollama/models/ |
| Windows | C:\Users\<Nom>\.ollama\models\ |
Structure des fichiers
~/.ollama/
├── models/
│ ├── manifests/ # Métadonnées des modèles
│ │ └── registry.ollama.ai/
│ │ └── library/
│ │ └── llama3.2/
│ │ └── latest
│ └── blobs/ # Fichiers binaires (GGUF)
│ ├── sha256-abc123...
│ └── sha256-def456...
└── history # Historique des commandes
Changer l'emplacement de stockage
# Définir un nouveau répertoire
export OLLAMA_MODELS="/data/ollama-models"
# Créer le répertoire
mkdir -p /data/ollama-models
# Lancer Ollama
ollama serve
Configuration permanente
# Linux : ajouter au profil
echo 'export OLLAMA_MODELS="/data/ollama-models"' >> ~/.bashrc
source ~/.bashrc
# Ou dans le service systemd
sudo systemctl edit ollama
# Ajouter : Environment="OLLAMA_MODELS=/data/ollama-models"
Migrer les modèles existants
# Copier les modèles vers le nouvel emplacement
cp -r ~/.ollama/models/* /data/ollama-models/
# Vérifier
OLLAMA_MODELS="/data/ollama-models" ollama list
Taille des modèles
# Voir l'espace utilisé
du -sh ~/.ollama/models/
# Détail par modèle
ollama list
Ressources officielles
Section intitulée « Ressources officielles »- Site web Ollama : ollama.com
- Code source sur GitHub : github.com/ollama/ollama
- Catalogue de modèles : ollama.com/library
- Documentation de l’API : github.com/ollama/ollama/blob/main/docs/api.md