Aller au contenu
Développement medium

Ollama : exécuter des LLM Localement (2026)

35 min de lecture

logo ollama

Vous avez probablement déjà utilisé ChatGPT ou un assistant IA similaire. C’est impressionnant, non ? Vous tapez une question, et en quelques secondes, vous obtenez une réponse détaillée, du code, une traduction… Mais avez-vous remarqué quelques inconvénients ?

  • Chaque question coûte de l’argent (même si c’est quelques centimes)
  • Vos conversations partent sur des serveurs distants (adieu confidentialité)
  • Sans internet, plus d’IA (impossible de travailler hors ligne)
  • Limites d’usage sur les versions gratuites (nombre de messages, files d’attente)

Et si je vous disais que vous pouvez avoir votre propre ChatGPT, gratuit, privé, et qui fonctionne même sans connexion internet ?

C’est exactement ce que permet Ollama. Et contrairement à ce que vous pourriez penser, ce n’est ni compliqué à installer, ni réservé aux experts. Dans ce guide, je vous accompagne pas à pas, de A à Z, pour que vous puissiez discuter avec une IA locale dans les 15 prochaines minutes.

À la fin de ce guide, vous saurez :

  • Installer Ollama sur votre ordinateur (Windows, Mac ou Linux)
  • Télécharger et utiliser des modèles d’IA comme Llama, Mistral ou CodeLlama
  • Discuter avec l’IA en ligne de commande et via Python
  • Choisir le bon modèle selon vos besoins (code, texte, traduction…)
  • Résoudre les problèmes courants si quelque chose ne fonctionne pas

Aucune connaissance préalable en intelligence artificielle n’est requise. Si vous savez ouvrir un terminal et taper une commande, vous avez tout ce qu’il faut.

Qu’est-ce qu’Ollama ? (explication détaillée)

Section intitulée « Qu’est-ce qu’Ollama ? (explication détaillée) »

Avant de plonger dans l’installation, prenons quelques minutes pour comprendre ce qu’est vraiment Ollama et pourquoi c’est important. Cette compréhension vous aidera à mieux l’utiliser par la suite.

Imaginez que vous êtes développeur et que vous voulez utiliser l’IA pour vous aider à coder. Vous avez trois options :

Option 1 : Utiliser ChatGPT (ou Claude, Gemini…)

Vous allez sur le site, vous tapez votre question, et vous obtenez une réponse. C’est pratique, mais :

  • Votre code (potentiellement confidentiel) transite par les serveurs d’OpenAI
  • Vous payez à l’usage (environ 0.01€ par question avec GPT-4)
  • En cas de panne du service, vous êtes bloqué

Option 2 : Installer un modèle IA vous-même (sans Ollama)

C’est techniquement possible, mais c’est un cauchemar :

  • Il faut télécharger les poids du modèle (plusieurs fichiers de plusieurs GB)
  • Installer les bonnes versions de Python, PyTorch, CUDA…
  • Configurer des dizaines de paramètres
  • Écrire du code pour charger et utiliser le modèle
  • Résultat : plusieurs heures de galère, même pour un développeur expérimenté

Option 3 : Utiliser Ollama

Ollama résout tous ces problèmes :

  • Une seule commande pour installer un modèle
  • Configuration automatique de tous les paramètres techniques
  • Interface simple pour discuter avec l’IA
  • Vos données restent locales

Vous avez sûrement vu le terme LLM (Large Language Model). Mais que signifie-t-il concrètement ?

Un LLM est un programme informatique qui a été entraîné sur d’énormes quantités de texte (livres, articles, code source, pages web…). Grâce à cet entraînement, il a appris :

  • Les règles de la langue : grammaire, orthographe, syntaxe
  • Les connaissances du monde : histoire, science, actualités (jusqu’à sa date de coupure)
  • Les patterns de raisonnement : comment résoudre des problèmes, structurer une réponse
  • Les conventions du code : syntaxe des langages, bonnes pratiques, patterns courants

Quand vous posez une question à un LLM, il ne “cherche” pas la réponse dans une base de données. Il génère la réponse mot par mot, en prédisant quel mot est le plus probable après le précédent, compte tenu de votre question et de tout ce qu’il a appris.

Quand vous utilisez ChatGPT :

  1. Vous tapez votre question
  2. Elle est envoyée aux serveurs d’OpenAI (aux États-Unis)
  3. Le modèle calcule la réponse sur leurs GPU
  4. La réponse vous est renvoyée

Quand vous utilisez Ollama :

  1. Vous tapez votre question
  2. Le modèle calcule la réponse sur votre propre processeur
  3. Rien ne sort de votre ordinateur

Conséquences concrètes :

AspectChatGPT (cloud)Ollama (local)
ConfidentialitéVos données transitent par des serveurs tiersVos données restent sur votre machine
Coût~0.01-0.03€ par question (GPT-4)Gratuit (après achat de l’ordinateur)
InternetObligatoireOptionnel (après téléchargement du modèle)
VitesseDépend de la latence réseauDépend de votre matériel
DisponibilitéPeut être saturé ou en maintenanceToujours disponible
PersonnalisationLimitéeTotale (vous pouvez créer vos propres modèles)

Voici des scénarios réels où Ollama brille :

Scénario 1 : Le développeur soucieux de la confidentialité

Marie travaille sur un projet client sous NDA (accord de confidentialité). Elle ne peut pas copier son code dans ChatGPT — ce serait une violation du contrat. Avec Ollama, elle peut demander de l’aide sur son code sans qu’il quitte son ordinateur.

Scénario 2 : L’étudiant sans budget

Thomas prépare ses examens et aimerait avoir un assistant pour expliquer des concepts complexes. Les 20€/mois de ChatGPT Plus ne rentrent pas dans son budget étudiant. Avec Ollama, il a un assistant gratuit et illimité.

Scénario 3 : Le professionnel en déplacement

Sophie est consultante et passe beaucoup de temps dans le train. La connexion est instable. Avec Ollama, elle peut travailler avec l’IA même dans un tunnel.

Scénario 4 : L’entreprise avec des données sensibles

L’équipe data d’une banque veut utiliser l’IA pour analyser des rapports internes. Impossible d’envoyer ces données à OpenAI pour des raisons réglementaires. Ollama permet d’avoir l’IA en interne.

Avant d’installer Ollama, vérifions que votre machine peut le faire tourner. Rassurez-vous : la plupart des ordinateurs récents (moins de 5-6 ans) sont compatibles.

La mémoire vive (RAM) est le facteur le plus important. Voici pourquoi :

Quand vous lancez un modèle IA avec Ollama, celui-ci est entièrement chargé en mémoire. Si votre ordinateur n’a pas assez de RAM, le modèle ne pourra pas être chargé, ou sera très lent car il devra utiliser le disque dur (ce qu’on appelle le “swap”).

RAM disponibleModèles utilisablesExpérience
4 GB❌ InsuffisantOllama refusera de lancer les modèles
8 GBModèles légers (3B)Fonctionnel mais limité
16 GBModèles moyens (7B)Bonne expérience pour la plupart des usages
32 GBGrands modèles (13B)Excellente expérience
64 GB+Très grands modèles (70B)Usage professionnel

Comment vérifier votre RAM ?

Sur Windows :

  1. Faites un clic droit sur la barre des tâches
  2. Cliquez sur “Gestionnaire des tâches”
  3. Allez dans l’onglet “Performances” → “Mémoire”

Sur macOS :

  1. Cliquez sur le menu Pomme 🍎
  2. “À propos de ce Mac”
  3. La RAM est indiquée (ex: “16 Go”)

Sur Linux :

Fenêtre de terminal
# Afficher la RAM totale
free -h

Vous verrez quelque chose comme Mem: 15Gi (pour 16 GB).

Chaque modèle IA occupe de l’espace sur votre disque dur. Voici les tailles typiques :

ModèleTaille sur disque
Llama 3.2 (3B)~2 GB
Mistral (7B)~4 GB
CodeLlama (7B)~4 GB
Llama 3.1 (70B)~40 GB

Recommandation : Gardez au moins 20 GB libres pour pouvoir télécharger plusieurs modèles et les essayer.

Une carte graphique (GPU) n’est pas obligatoire. Ollama fonctionne très bien sur CPU (processeur classique). La différence :

  • Sans GPU : Une réponse prend 2-10 secondes
  • Avec GPU NVIDIA : Une réponse prend 0.5-2 secondes

Si vous avez un GPU NVIDIA avec au moins 8 GB de VRAM, Ollama l’utilisera automatiquement. Sinon, pas de souci — le CPU fera le travail.

ComposantMinimumRecommandéIdéal
RAM8 GB16 GB32 GB
Disque10 GB libres50 GB libres100 GB+ (SSD)
Processeur64-bit moderneMulticoeur récentApple M1+ ou Intel i7+
GPUNon requisNVIDIA 8 GB VRAMNVIDIA 16 GB+ VRAM
SystèmeWindows 10, macOS 10.15, Linux moderne

Maintenant que vous savez que votre machine est compatible, passons à l’installation. Je vais vous guider étape par étape selon votre système d’exploitation.

Installation sur Linux (Ubuntu, Debian, Fedora…)

Section intitulée « Installation sur Linux (Ubuntu, Debian, Fedora…) »

Linux est le système le plus simple pour installer Ollama. Une seule commande suffit :

  1. Ouvrez un terminal

    Utilisez le raccourci Ctrl + Alt + T ou cherchez “Terminal” dans vos applications.

  2. Lancez le script d’installation

    Copiez-collez cette commande et appuyez sur Entrée :

    Fenêtre de terminal
    curl -fsSL https://ollama.com/install.sh | sh

    Que fait cette commande ?

    • curl télécharge le script d’installation depuis le site officiel d’Ollama
    • sh exécute ce script
    • Le script détecte automatiquement votre distribution Linux et installe Ollama

    Le téléchargement et l’installation prennent généralement 1-2 minutes.

  3. Vérifiez l’installation

    Une fois terminé, vérifiez qu’Ollama est bien installé :

    Fenêtre de terminal
    ollama --version

    Vous devriez voir quelque chose comme ollama version 0.5.4 (le numéro peut varier).

  4. Vérifiez que le service tourne

    Ollama s’exécute en tant que service en arrière-plan. Vérifiez son état :

    Fenêtre de terminal
    sudo systemctl status ollama

    Vous devriez voir Active: active (running) en vert.

Si quelque chose ne va pas :

Fenêtre de terminal
# Voir les logs du service pour diagnostiquer
sudo journalctl -u ollama -f
# Redémarrer le service
sudo systemctl restart ollama
  1. Téléchargez l’installateur

    Rendez-vous sur ollama.com/download et cliquez sur le bouton “Download for Windows”.

    Le fichier OllamaSetup.exe sera téléchargé (environ 200 MB).

  2. Lancez l’installation

    Double-cliquez sur le fichier téléchargé. Si Windows vous demande confirmation (“Voulez-vous autoriser cette application…”), cliquez sur “Oui”.

    L’assistant d’installation apparaît. Cliquez sur “Install” et attendez quelques instants.

  3. Vérifiez l’installation

    Ouvrez PowerShell (cherchez “PowerShell” dans le menu Démarrer) et tapez :

    Fenêtre de terminal
    ollama --version

    Si vous voyez un numéro de version, l’installation est réussie !

  4. Note importante : l’icône dans la barre des tâches

    Après l’installation, vous verrez une petite icône Ollama (un lama) dans la zone de notification (en bas à droite). Ollama tourne en arrière-plan — c’est normal et nécessaire pour qu’il fonctionne.

  1. Téléchargez l’application

    Rendez-vous sur ollama.com/download et cliquez sur “Download for macOS”.

    Le fichier Ollama-darwin.zip sera téléchargé.

  2. Installez l’application

    Double-cliquez sur le fichier ZIP pour le décompresser. Vous obtenez l’application Ollama.app.

    Glissez-déposez Ollama.app dans votre dossier “Applications”.

  3. Lancez Ollama

    Double-cliquez sur Ollama dans vos Applications. macOS peut vous demander de confirmer (“Ollama est une app téléchargée d’Internet…”) — cliquez sur “Ouvrir”.

    Une icône de lama apparaîtra dans la barre de menu en haut de l’écran.

  4. Vérifiez l’installation

    Ouvrez le Terminal (Applications → Utilitaires → Terminal) et tapez :

    Fenêtre de terminal
    ollama --version

    Vous devriez voir le numéro de version s’afficher.

Ollama est installé, mais il lui manque le plus important : un modèle IA. C’est le “cerveau” qui va répondre à vos questions.

Ollama donne accès à des dizaines de modèles. Pour commencer, je vous recommande Llama 3.2, développé par Meta (l’entreprise derrière Facebook). Pourquoi ce choix ?

  • Récent : Sorti fin 2024, il intègre les dernières avancées
  • Performant : Excellentes capacités en français et en anglais
  • Léger : La version 3B ne pèse que 2 GB
  • Polyvalent : Bon pour le texte, le code, la traduction…

Ouvrez votre terminal (ou PowerShell sur Windows) et tapez :

Fenêtre de terminal
ollama pull llama3.2

Que se passe-t-il exactement ?

  1. Ollama contacte son registre (une sorte de “magasin” de modèles)
  2. Il télécharge le modèle morceau par morceau (vous verrez une barre de progression)
  3. Il vérifie l’intégrité des fichiers téléchargés (pour s’assurer qu’ils ne sont pas corrompus)
  4. Il optimise le modèle pour votre machine

Le téléchargement prend généralement 2 à 10 minutes selon votre connexion internet. Vous verrez quelque chose comme :

pulling manifest
pulling 74701a8c35f6... 50% ▓▓▓▓▓▓▓▓▓▓░░░░░░░░░░ 1.1 GB/2.0 GB 45 MB/s

Une fois le téléchargement terminé, vérifiez que le modèle est bien installé :

Fenêtre de terminal
ollama list

Vous devriez voir :

NAME ID SIZE MODIFIED
llama3.2:latest 74701a8c35f6 2.0 GB About a minute ago

Bravo ! Vous avez maintenant une IA locale prête à l’emploi.

C’est le moment tant attendu : parler avec votre IA locale.

Tapez cette commande :

Fenêtre de terminal
ollama run llama3.2

Après quelques secondes de chargement, vous verrez apparaître une invite de commande :

>>>

C’est ici que vous allez taper vos questions. Le modèle attend votre message !

Voici un exemple de ce que vous pouvez faire. Tapez exactement ce qui suit le >>> :

Vous :

>>> Bonjour ! Peux-tu te présenter ?

L’IA répond :

Bonjour ! Je suis un assistant IA basé sur le modèle Llama 3.2, développé par
Meta. Je suis conçu pour vous aider dans diverses tâches comme répondre à vos
questions, générer du texte, traduire, expliquer des concepts, et bien plus
encore.
Je fonctionne entièrement sur votre ordinateur grâce à Ollama, ce qui signifie
que vos conversations restent privées et ne sont envoyées nulle part.
Comment puis-je vous aider aujourd'hui ?

Vous :

>>> Explique-moi ce qu'est Docker comme si j'avais 10 ans

L’IA répond :

Imagine que tu veux jouer à un jeu vidéo chez ton ami. Mais le jeu a besoin de
plein de choses sur l'ordinateur : des fichiers spéciaux, des réglages
particuliers... Si ton ami n'a pas exactement les mêmes choses, le jeu ne
marchera pas !
Docker, c'est comme une boîte magique où tu mets ton jeu avec TOUT ce dont il a
besoin. Quand tu donnes cette boîte à ton ami, il peut ouvrir la boîte et le jeu
marche tout de suite, même si son ordinateur est différent du tien.
Les développeurs utilisent Docker pour mettre leurs programmes dans des "boîtes"
(on appelle ça des "conteneurs"). Comme ça, le programme marche pareil partout,
sur n'importe quel ordinateur !

Vous :

>>> Super ! Maintenant, écris-moi une fonction Python qui compte les mots dans une phrase

L’IA répond :

def compter_mots(phrase):
"""
Compte le nombre de mots dans une phrase.
Args:
phrase (str): La phrase à analyser
Returns:
int: Le nombre de mots
"""
# Supprimer les espaces au début et à la fin
phrase = phrase.strip()
# Si la phrase est vide, retourner 0
if not phrase:
return 0
# Séparer la phrase en mots et compter
mots = phrase.split()
return len(mots)
# Exemple d'utilisation
texte = "Bonjour, comment allez-vous aujourd'hui ?"
nombre = compter_mots(texte)
print(f"La phrase contient {nombre} mots.")

Pour terminer la conversation, tapez :

>>> /bye

Vous reviendrez à votre terminal normal.

L’IA fonctionne mieux quand vous lui donnez des instructions claires et détaillées. Voici quelques techniques :

❌ Question vague :

>>> Parle-moi de Python

✅ Question précise :

>>> Explique les différences entre les listes et les tuples en Python, avec des exemples de cas où utiliser l'un plutôt que l'autre

❌ Demande générique :

>>> Écris du code

✅ Demande contextualisée :

>>> Écris une fonction Python qui prend une liste de nombres et retourne la moyenne, en gérant le cas où la liste est vide. Ajoute des commentaires explicatifs.

Maintenant que vous savez discuter avec l’IA, voici les commandes indispensables à connaître.

Fenêtre de terminal
# Lister tous les modèles installés sur votre machine
ollama list
# Télécharger un nouveau modèle (exemple : Mistral)
ollama pull mistral
# Supprimer un modèle pour libérer de l'espace disque
ollama rm mistral
# Voir les détails d'un modèle (taille, paramètres, licence...)
ollama show llama3.2

Vous n’êtes pas obligé d’ouvrir une session interactive. Vous pouvez poser une question unique :

Fenêtre de terminal
# Poser une question et obtenir la réponse immédiatement
ollama run llama3.2 "Quelle est la capitale de l'Australie ?"

La réponse s’affiche, puis vous revenez au terminal. C’est pratique pour des questions rapides ou pour intégrer Ollama dans des scripts.

Vous pouvez installer plusieurs modèles et basculer entre eux :

Fenêtre de terminal
# Installer plusieurs modèles
ollama pull llama3.2
ollama pull mistral
ollama pull codellama
# Utiliser Mistral pour cette question
ollama run mistral "Écris un haïku sur l'automne"
# Utiliser CodeLlama pour du code
ollama run codellama "Écris une regex pour valider une adresse email"

Ollama n’est pas limité à la ligne de commande. Vous pouvez l’intégrer dans vos programmes Python pour automatiser des tâches ou créer des applications.

Quand Ollama tourne, il expose une API REST sur le port 11434 de votre machine. C’est une interface qui permet à n’importe quel programme de communiquer avec l’IA.

Tester que l’API fonctionne :

Fenêtre de terminal
curl http://localhost:11434/api/tags

Vous devriez voir la liste de vos modèles au format JSON.

Il existe plusieurs façons d’utiliser Ollama en Python. La plus simple est avec la bibliothèque litellm qui fournit une interface unifiée :

Fenêtre de terminal
# Installer litellm
pip install litellm

Exemple de code Python :

import litellm
# Configuration : utiliser Ollama en local
response = litellm.completion(
model="ollama/llama3.2", # Format : ollama/nom-du-modele
messages=[
{"role": "user", "content": "Explique-moi ce qu'est une API REST en 3 phrases simples"}
]
)
# Afficher la réponse
print(response.choices[0].message['content'])

Résultat :

Une API REST est comme un serveur de restaurant : vous passez commande (une
requête), et le serveur vous apporte le plat (une réponse). Elle utilise les
méthodes HTTP standard (GET, POST, PUT, DELETE) pour effectuer des opérations
sur des ressources. C'est le moyen le plus courant pour que des applications
communiquent entre elles sur internet.

Voici un script Python plus complet qui analyse du code :

import litellm
def analyser_code(code: str) -> str:
"""
Demande à l'IA d'analyser un morceau de code et de suggérer des améliorations.
"""
prompt = f"""Analyse le code Python suivant et donne-moi :
1. Ce que fait ce code
2. Les problèmes potentiels
3. Des suggestions d'amélioration
Code à analyser :
```python
{code}
```"""
response = litellm.completion(
model="ollama/llama3.2",
messages=[{"role": "user", "content": prompt}]
)
return response.choices[0].message['content']
# Exemple d'utilisation
code_a_analyser = '''
def calc(x,y):
return x+y
'''
print(analyser_code(code_a_analyser))

Résultat :

## Analyse du code
### 1. Ce que fait ce code
Cette fonction `calc` prend deux paramètres `x` et `y` et retourne leur somme.
### 2. Problèmes potentiels
- Le nom `calc` est vague — on ne sait pas ce qu'elle calcule
- Pas de gestion des types — que se passe-t-il si on passe des chaînes ?
- Pas de documentation (docstring)
- Formatage non conforme à PEP 8 (espaces manquants)
### 3. Suggestions d'amélioration
def additionner(a: int | float, b: int | float) -> int | float:
"""
Additionne deux nombres.
Args:
a: Premier nombre
b: Second nombre
Returns:
La somme de a et b
Raises:
TypeError: Si a ou b n'est pas un nombre
"""
if not isinstance(a, (int, float)) or not isinstance(b, (int, float)):
raise TypeError("Les arguments doivent être des nombres")
return a + b

Pour des projets plus avancés comme la création d’un chatbot qui répond aux questions sur vos propres documents, consultez le guide RAG : connecter les LLM à vos données.

Découvrez des applications concrètes d’Ollama avec des exemples complets que vous pouvez reproduire.

Utilisez Ollama comme copilote de code. Voici un exemple où l’IA explique et améliore du code existant :

Fenêtre de terminal
ollama run codellama "Explique ce code Python et suggère des améliorations:
def fibonacci(n):
if n <= 1:
return n
return fibonacci(n-1) + fibonacci(n-2)"

L’IA vous expliquera que cette implémentation récursive a une complexité exponentielle et proposera une version optimisée avec mémoïsation ou une approche itérative.

Automatisez vos traductions en conservant un style professionnel :

Fenêtre de terminal
ollama run llama3.2 "Traduis ce texte anglais en français professionnel, en conservant le ton formel :
'We are pleased to announce the launch of our new product. This solution addresses the key challenges faced by enterprises in managing their cloud infrastructure.'"

Créez du contenu marketing rapidement :

Fenêtre de terminal
ollama run mistral "Écris une description produit attrayante pour une application de fitness mobile destinée aux débutants. La description doit faire 150 mots et mettre en avant 3 avantages clés."

Analysez automatiquement le ton des retours clients :

Fenêtre de terminal
ollama run llama3.2 "Analyse le sentiment de ce commentaire client et identifie les points positifs et négatifs :
'Le produit est de bonne qualité et fonctionne comme décrit. Cependant, la livraison a pris 2 semaines au lieu des 3 jours annoncés, ce qui est vraiment décevant. Le support client a été réactif pour me donner des nouvelles.'"

Même si Ollama est simple d’utilisation, vous pouvez rencontrer quelques difficultés. Voici les problèmes les plus fréquents et leurs solutions.

Le problème : Ollama ne répond pas quand vous tapez une commande.

Causes possibles et solutions :

  1. Le service Ollama n’est pas démarré

    Sur Linux :

    Fenêtre de terminal
    sudo systemctl start ollama
    sudo systemctl status ollama # Vérifier l'état

    Sur Windows : Vérifiez que l’icône Ollama est présente dans la zone de notification. Si non, relancez l’application Ollama.

    Sur macOS : Cliquez sur l’icône Ollama dans la barre de menu et vérifiez qu’il est “Running”.

  2. Un pare-feu bloque le port 11434

    Ollama utilise le port 11434. Si vous avez un pare-feu strict, autorisez ce port en local.

Le problème : Vous essayez d’utiliser un modèle qui n’est pas installé.

Solution :

Fenêtre de terminal
# Vérifier les modèles installés
ollama list
# Télécharger le modèle manquant
ollama pull nom-du-modele

“Error: out of memory” ou performances très lentes

Section intitulée « “Error: out of memory” ou performances très lentes »

Le problème : Votre machine n’a pas assez de RAM pour le modèle choisi.

Solutions :

  1. Utilisez un modèle plus petit

    Fenêtre de terminal
    # Au lieu de mistral (7B), essayez phi (1.5B)
    ollama pull phi
    ollama run phi "Votre question"
  2. Fermez d’autres applications pour libérer de la RAM

  3. Vérifiez l’utilisation mémoire :

    Sur Linux/macOS :

    Fenêtre de terminal
    free -h # Voir la RAM disponible
    htop # Voir les processus gourmands

    Sur Windows : Ouvrez le Gestionnaire des tâches (Ctrl+Shift+Échap)

Causes possibles et solutions :

  1. Modèle trop grand pour votre machine → Passez à un modèle plus petit

  2. Première requête après le lancement : Le modèle doit être chargé en mémoire. C’est normal que la première réponse soit plus longue (10-30 secondes). Les suivantes seront rapides.

  3. Autres processus utilisent le CPU → Fermez les applications lourdes

  4. Vous n’utilisez pas le GPU alors qu’il est disponible :

    Fenêtre de terminal
    # Vérifier si Ollama utilise le GPU
    ollama run llama3.2 "Test"
    # Regardez l'utilisation GPU avec nvidia-smi (si NVIDIA)

Le problème : Les réponses sont confuses, hors-sujet, ou répétitives.

Solutions :

  1. Reformulez votre question de manière plus précise et structurée

  2. Essayez un autre modèle — certains sont meilleurs pour certaines tâches

  3. Commencez une nouvelle conversation — parfois le contexte précédent “pollue” les réponses :

    Fenêtre de terminal
    # Quitter et relancer
    >>> /bye
    ollama run llama3.2

Cette section est destinée aux utilisateurs avancés qui veulent personnaliser Ollama.

Par défaut, Ollama stocke les modèles dans :

  • Linux : ~/.ollama/models
  • Windows : C:\Users\<user>\.ollama\models
  • macOS : ~/.ollama/models

Pour changer cet emplacement (par exemple, vers un disque plus grand) :

Fenêtre de terminal
# Définir un nouvel emplacement avant de lancer Ollama
export OLLAMA_MODELS="/chemin/vers/nouveau/dossier"
# Puis lancer Ollama
ollama serve

Si Ollama consomme trop de RAM :

Fenêtre de terminal
# Limiter à un seul modèle chargé à la fois
export OLLAMA_MAX_LOADED_MODELS=1
# Limiter la file d'attente des requêtes
export OLLAMA_MAX_QUEUE=4

Par défaut, Ollama n’écoute que sur localhost (127.0.0.1). Pour y accéder depuis d’autres machines sur votre réseau :

Fenêtre de terminal
export OLLAMA_HOST="0.0.0.0:11434"
ollama serve

Félicitations ! Vous avez maintenant votre propre assistant IA fonctionnant sur votre ordinateur. Récapitulons ce que vous avez appris :

  • Comprendre ce qu’est un LLM et pourquoi le local est avantageux
  • Installer Ollama sur votre système
  • Télécharger des modèles comme Llama 3.2
  • Converser avec l’IA en ligne de commande
  • Intégrer Ollama dans vos programmes Python
  • Résoudre les problèmes courants

Ollama transforme votre ordinateur en station IA personnelle. Vous pouvez maintenant expérimenter, coder, rédiger et apprendre avec un assistant disponible 24h/24, sans abonnement et sans envoyer vos données à des tiers.

Ollama ouvre la porte à de nombreuses possibilités. Voici des guides pour approfondir :