Aller au contenu
Développement medium

Panorama IA : LLM, RAG, agents et MCP

20 min de lecture

Imaginons que vous vouliez créer un assistant qui répond aux questions sur votre documentation interne, exécute des commandes sur vos serveurs et génère des rapports. Par où commencer ? Quelles briques utiliser ? Ce guide vous donne en 15 minutes une carte mentale complète de l’écosystème IA générative.

À la fin, vous saurez :

  • Nommer chaque composant (LLM, RAG, agent, MCP)
  • Comprendre ce que chacun fait et quand l’utiliser
  • Positionner les outils (Ollama, LiteLLM, LangGraph) dans une architecture
  • Décider quelle approche choisir pour votre projet
  • LLM : qu’est-ce qu’un modèle de langage et comment il génère du texte
  • RAG : comment augmenter un LLM avec vos propres données
  • Tool calling : comment un LLM appelle des fonctions
  • Agents : comment un LLM peut agir sur le monde réel via des outils
  • MCP : le standard qui connecte agents et outils
  • Où se placent les outils : LiteLLM, Ollama, LangGraph dans l’architecture
Vous voulez…Utilisez…
Répondre sur vos docs internesRAG (recherche + injection de contexte)
Déclencher une action externe (API, DB, shell)Tool calling
Enchaîner plusieurs étapes / boucler jusqu’au résultatAgent (LangGraph, CrewAI…)
Réutiliser vos outils dans Claude Desktop, VS Code, etc.MCP (standard d’interopérabilité)

Un LLM (Large Language Model) est un programme qui prédit le token suivant dans une séquence. Un token n’est pas forcément un mot : c’est un morceau de texte (mot, partie de mot, ponctuation). Pensez à la fonction “auto-complétion” de votre téléphone, mais à une échelle gigantesque : au lieu de suggérer un mot, il génère des paragraphes entiers.

Concrètement, un LLM peut :

  • Générer du texte : articles, emails, code, scripts
  • Répondre à des questions : en synthétisant ce qu’il a “appris”
  • Résumer des documents : en extrayant l’essentiel
  • Traduire : en transposant les patterns d’une langue à l’autre
  • Reformuler : en changeant le style ou le niveau de complexité

Le LLM a été entraîné sur des milliards de textes (livres, sites web, code source, conversations). Pendant cet entraînement, il a “appris” les patterns statistiques du langage : quels mots suivent quels autres, dans quel contexte.

Prédiction LLM : entrée, modèle, probabilités de sortie

Le LLM choisit le token suivant selon des probabilités, puis répète le processus jusqu’à générer une réponse complète. Cette génération token par token explique pourquoi on parle de “coût par token” et de “context window” (fenêtre de contexte).

Le LLM saitLe LLM ne sait pas
La syntaxe du langageLes événements après sa date d’entraînement
Les patterns courantsLe contenu de vos documents internes
Générer du code valideLa vérité (il “hallucine” parfois)
Suivre des instructionsAgir sur le monde réel
FamilleExemplesParticularité
GPT (OpenAI)GPT-4o, o1, o3Polyvalent, API cloud, reasoning
Claude (Anthropic)Claude 3.5, 4Long contexte (200k), sûr
Llama (Meta)Llama 3.3Open-weights, local possible
MistralMistral Large, CodestralPerformant, européen
Gemini (Google)Gemini 2.0Multimodal
Qwen (Alibaba)Qwen 2.5Open-source, multilingue

→ Approfondir : Anatomie d’un LLM

Vous avez un LLM, mais il ne connaît pas vos documents internes. Comment lui faire répondre à “Quelle est notre politique de congés ?” ou “Comment déployer sur notre infrastructure ?” C’est là qu’intervient RAG (Retrieval-Augmented Generation).

  1. Indexer : transformer vos documents en vecteurs numériques (on y reviendra)
  2. Chercher : quand une question arrive, trouver les passages pertinents
  3. Injecter : ajouter ces passages dans le prompt du LLM
  4. Générer : le LLM répond en se basant sur ce contexte

Pipeline RAG : question, recherche, contexte, LLM, réponse

ApprocheAvantagesInconvénients
RAGPas de réentraînement, données à jour, traçabilité (citations)Dépend de la qualité de la recherche
Fine-tuningComportement personnalisé, pas de latence de rechercheCoûteux, données figées, risque d’oubli
  1. Extraction : Récupérer le contenu brut de vos sources (HTML, PDF, Markdown). C’est le “web scraping” ou “parsing” de vos documents.

  2. Chunking : Découper en morceaux de 500-1000 tokens. Pourquoi ? Parce que le LLM a une fenêtre de contexte limitée, et parce qu’un passage court est plus pertinent qu’un document entier.

  3. Embeddings : Convertir chaque chunk en vecteur numérique (une liste de nombres). C’est comme donner une “adresse” à chaque chunk dans un espace mathématique où les textes similaires sont proches.

  4. Indexation : Stocker ces vecteurs dans une base vectorielle (ChromaDB, FAISS). C’est une base de données optimisée pour chercher “le vecteur le plus proche”.

  5. Retrieval : Quand une question arrive, la convertir aussi en vecteur, puis chercher les chunks les plus proches. C’est la “recherche sémantique”.

  6. Génération : Injecter les chunks trouvés dans le prompt du LLM. Il répond en se basant sur ce contexte, pas sur sa mémoire.

Un RAG “démo” fonctionne vite. Un RAG production-ready nécessite 3 éléments supplémentaires :

  1. Métadonnées & filtres : chaque chunk porte des infos (source, date, produit, ACL). Sinon impossible de filtrer par équipe, restreindre par droits, ou dater les réponses.

  2. Hybrid retrieval + reranking : combiner recherche dense (embeddings) et lexicale (BM25), puis re-classer les résultats avec un modèle de reranking. Gain de pertinence significatif.

  3. Citations / traçabilité : renvoyer à l’utilisateur les extraits utilisés avec leurs liens ou IDs. Sans ça, impossible de vérifier ni d’auditer.

→ Approfondir : Introduction au RAG

Jusqu’ici, le LLM ne fait que parler. Mais si vous voulez qu’il agisse — réserver un vol, déployer un service, envoyer un email — il lui faut des outils et une boucle de décision. C’est ce qu’on appelle un agent.

Concrètement, un agent peut :

  • Appeler des API : météo, Slack, GitHub, votre backend
  • Exécuter du code : Python, shell, SQL
  • Lire/écrire des fichiers : logs, configs, rapports
  • Interroger des bases de données : PostgreSQL, MongoDB, Elasticsearch
  • Naviguer sur le web : scraper, remplir des formulaires

L’agent fonctionne en boucle jusqu’à ce que la tâche soit terminée :

Boucle agent : Perceive, Think, Act, Observe

Chaque étape a un rôle précis :

  1. PERCEIVE : L’agent reçoit la demande (“Déploie la version 2.1 sur staging”)
  2. THINK : Le LLM analyse la situation et décide quoi faire (“Je dois d’abord vérifier si staging est disponible”)
  3. ACT : Il appelle un outil (check_status("staging"))
  4. OBSERVE : Il lit le résultat (“staging: OK, prêt”)
  5. Recommencer ? : Si la tâche n’est pas finie, retour à THINK (“Maintenant je peux déployer”)
Chatbot simpleAgent
Répond à une questionAccomplit une tâche
Une seule interaction LLMPlusieurs itérations
Pas d’action externeAppelle des outils
DéterministeAutonome (et risqué)
PatternDescriptionUse-case
ReActRaisonnement + Action alternésTâches complexes multi-étapes
Plan-ExecutePlanifier d’abord, exécuter ensuiteTâches avec dépendances
ReflectionAuto-critique et correctionAméliorer la qualité
RouterOrienter vers le bon sous-agentSpécialisation par domaine

→ Approfondir : Patterns agentiques (à venir)

Vous vous demandez peut-être : “Comment le LLM sait-il appeler une API ?” La réponse : il ne le fait pas vraiment. Le LLM génère du texte structuré (JSON) qui décrit quelle fonction appeler et avec quels paramètres. C’est votre code qui exécute réellement l’action.

C’est le tool calling (ou function calling) : une convention où le LLM “demande” d’appeler une fonction, et votre code l’exécute.

  1. Vous définissez des outils avec leurs schémas (nom, description, paramètres)
  2. L’utilisateur pose une question
  3. Le LLM décide quel outil appeler et avec quels paramètres
  4. Votre code exécute l’outil et retourne le résultat
  5. Le LLM intègre le résultat dans sa réponse
# Définition d'un outil
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Obtenir la météo d'une ville",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "Nom de la ville"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}
}
]
# Le LLM génère ceci (pas le résultat, juste l'appel) :
# {"name": "get_weather", "arguments": {"city": "Paris", "unit": "celsius"}}
# Votre code exécute get_weather("Paris", "celsius") → "18°C, nuageux"
# Le LLM répond : "Il fait 18°C à Paris, avec un ciel nuageux."

→ Approfondir : Tool calling & contrats d’interface (à venir)

Vous avez créé un outil “get_weather” pour votre agent LangGraph. Super ! Mais maintenant vous voulez l’utiliser dans Claude Desktop, VS Code Copilot et votre chatbot Chainlit. Vous allez réécrire l’intégration 3 fois ? C’est exactement le problème que MCP (Model Context Protocol) résout.

Comparaison avant/après MCP : N×M vs N+M intégrations

ComposantRôleExemple
HostL’application utilisateurClaude Desktop, VS Code, Chainlit
ClientMaintient la connexion aux serveursBibliothèque MCP
ServerExpose ressources, outils, promptsVotre serveur MCP
PrimitiveDescriptionExemple
ResourcesDonnées contextuelles (read-only)Fichiers, entrées de DB
ToolsFonctions appelables par le LLMcheck_status(), deploy()
PromptsTemplates réutilisables”Résume cet incident”

→ Approfondir : MCP : standardiser les outils (à venir)

Pour bien comprendre comment tout s’assemble, imaginons un assistant DevOps complet :

Vous voulez un assistant qui peut :

  • Répondre aux questions sur votre documentation interne (procédures, runbooks)
  • Vérifier l’état de vos services
  • Récupérer des logs
  • Créer des tickets d’incident
BesoinBrique IAImplémentation
Répondre sur la doc interneRAGChromaDB avec vos runbooks indexés
Vérifier l’état des servicesTool callingOutil check_status(service)
Récupérer des logsTool callingOutil get_logs(service, lines)
Créer un ticketTool callingOutil create_ticket(title, body)
Orchestrer tout çaAgentLangGraph avec boucle de décision
Standardiser les outilsMCPServeur MCP “devops-tools”
Interface utilisateurChainlit ou Slack bot
InférenceLLMGPT-4 via LiteLLM (avec fallback Claude)

Architecture assistant DevOps : Agent, MCP, outils, RAG

Avant de passer à la suite, évitez ces pièges classiques :

ErreurPourquoi c’est fauxBonne approche
”RAG = fine-tuning”RAG injecte du contexte à la volée ; fine-tuning modifie les poids du modèleUtilisez RAG pour des données changeantes, fine-tuning pour un comportement personnalisé permanent
”Un agent = un chatbot”Un chatbot répond ; un agent agit (boucle, outils, autonomie)Chatbot si Q&A simple, agent si tâches multi-étapes
”MCP sécurise mes outils”MCP est un protocole d’interopérabilité, pas de sécuritéAjoutez sandbox, allowlist, audit par-dessus MCP
”Le LLM appelle l’API”Le LLM génère du JSON ; votre code exécute l’appelValidez toujours le JSON avant exécution
  1. LLM = génération : prédit le token suivant. Base de tout. Mais ne sait que ce qu’il a appris.

  2. RAG = contexte : augmente le LLM avec vos données. Recherche + injection dans le prompt.

  3. Tool calling = interface : le LLM génère du JSON, votre code exécute. Validez toujours.

  4. Agent = action : LLM + boucle + outils. Autonome mais risqué. Garde-fous obligatoires.

  5. MCP = standard : connecte apps et outils. Évite le N×M. Resources, Tools, Prompts.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracing. Aujourd'hui, ce site ne couvre même pas mes frais d'hébergement, d'électricité, de matériel, de logiciels, mais surtout de cafés.

Un soutien régulier, même symbolique, m'aide à garder ces ressources gratuites et à continuer de produire des guides de qualité. Merci pour votre appui.