Formation IA pour ingénieurs : LLM, RAG, agents, MCP

Ce parcours vous mène de A à Z : comprendre les LLM, en faire tourner un en local, construire un RAG sur vos données, outiller des agents, exposer des serveurs MCP, puis observer et sécuriser le tout. L'angle est celui d'un ingénieur infrastructure et sécurité : on privilégie le self-hosting, la reproductibilité et le contrôle des coûts, pas la dépendance à une API propriétaire. Chaque module s'appuie sur des labs reproductibles. C'est la porte d'entrée du thème IA du site.

Aller droit au but

🦙 Je débute : faire tourner un LLM Lancer un modèle en local avec Ollama, en quelques minutes.

🧠 Le parcours Python/IA complet Construire, servir et sécuriser des applications IA en Python.

🏗️ Le projet fil rouge Assembler une stack IA souveraine de bout en bout.

⌨️ Coder avec l'IA (Claude Code) Utiliser un assistant IA dans le terminal et l'IDE.

À qui s'adresse ce parcours

Il vise les développeurs, DevOps, SRE et platform engineers qui veulent construire avec l'IA générative, pas seulement l'utiliser. Les prérequis sont du Python et l'aise avec Docker et la ligne de commande. La progression va du débutant (modules 1 à 3) à l'avancé (modules 4 à 7) ; vous pouvez aussi piocher un module précis selon votre besoin.

Ce qui distingue ce parcours

Beaucoup de cursus IA s'arrêtent à l'appel d'API d'un fournisseur. Ici, quatre partis pris assumés :

Self-hosting d'abord : tout peut tourner sans dépendre du cloud, vos données restent chez vous.
Angle infra et sécurité : observabilité, coûts et durcissement sont traités comme en production.
Des labs reproductibles : chaque module pratique s'appuie sur un lab testé, avec versions épinglées.
Une couverture rare : MCP et agents sont traités en profondeur, ce qu'on trouve peu en français.

L'objectif : des compétences durables, qui restent valables quand les modèles et les fournisseurs changent.

Niveaux et progression

Suivez l'ordre si vous débutez ; sinon, ciblez directement le module utile. Indication de niveau par module :

Modules	Niveau
1 Fondamentaux, 2 Exécuter un LLM	Débutant
3 Fine-tuning, 4 RAG	Intermédiaire
5 Agents, 6 MCP	Intermédiaire à avancé
7 Observabilité, 8 Sécurité	Avancé
9 Projet fil rouge	Avancé (synthèse)

Le parcours en 9 modules

1. Fondamentaux

On commence par comprendre ce qu'est un LLM, comment il génère du texte, et comment le piloter par le prompt. Ces bases conditionnent tout le reste : un bon prompt évite souvent un système complexe. Vous y verrez aussi les limites des modèles, pour garder un regard d'ingénieur.

Démarrer les fondamentaux Panorama de l'IA générative, LLM, prompt engineering.

Anatomie d'un LLM Comment fonctionne un modèle : Transformer, tokenisation, attention, génération.

2. Exécuter un LLM (self-hosting)

Avant de construire, il faut servir un modèle. On part d'Ollama pour exécuter un LLM sur votre machine, puis on unifie les appels avec la passerelle LiteLLM, et on passe aux moteurs d'inférence (vLLM, SGLang) et à la quantification pour la production. C'est le socle qui rend tout le reste souverain.

Faire tourner un LLM en local Ollama, LiteLLM, Hugging Face, inférence, quantification.

3. Fine-tuning : personnaliser un modèle

Quand le prompt et le RAG ne suffisent plus, on modifie le comportement du modèle. Le fine-tuning (via LoRA et QLoRA) spécialise un LLM sur vos données, mais c'est la solution la plus coûteuse et la plus souvent mal employée. L'essentiel est de savoir quand y recourir, et surtout quand l'éviter.

Quand fine-tuner (et quand l'éviter) Prompt vs RAG vs fine-tuning, LoRA/QLoRA, coût réel et pièges.

4. RAG : interroger vos données

Le RAG ancre les réponses du modèle dans votre corpus, sans réentraînement. C'est la brique la plus demandée en entreprise, et celle où les détails d'ingénierie (découpage, embeddings, base vectorielle, re-ranking, évaluation) font la différence entre une démo et un système fiable.

Construire un RAG fiable De l'ingestion à la réponse évaluée : chunking, embeddings, Qdrant, re-ranking.

5. Agents

Un agent est un LLM doté d'outils, d'une boucle de décision et d'une mémoire. Ce module couvre le function calling, les frameworks (PydanticAI, LangGraph), le multi-agents, la mémoire et la sandbox d'exécution, indispensable dès qu'un agent exécute du code.

Construire des agents Du function calling au multi-agents, frameworks et patterns.

6. MCP (Model Context Protocol)

Le MCP est le standard qui connecte proprement vos agents à vos outils et données, sans intégration jetable à chaque fois. Ce module va de l'architecture à la construction de clients et serveurs, jusqu'à la sécurité MCP et le déploiement, le tout appuyé sur des serveurs réellement construits.

Maîtriser MCP Protocole, transports, client et serveur, sécurité, déploiement.

7. Observabilité & LLMOps

C'est ce qui distingue un prototype d'un service de production. Une application IA pose des questions nouvelles : quel prompt, à quel coût, avec quelle latence, et surtout quelle qualité ? L'observabilité et l'évaluation systématiques sont les chantiers les plus négligés, donc les plus différenciants.

Observer ses LLM et ses agents Traces, évaluation, gestion des prompts : voir ce que fait votre IA.

8. Sécurité LLM

Mettre un LLM en production ouvre une surface d'attaque inédite : prompt injection, fuite de données, excès d'autonomie d'un agent. Ce module pose le panorama défensif (OWASP Top 10 LLM, guardrails, défense en profondeur). C'est l'un des chantiers les plus négligés, donc les plus différenciants, et c'est l'angle naturel d'un ingénieur infra/sécurité.

Sécuriser une application LLM Prompt injection, OWASP Top 10 LLM, guardrails, défense en profondeur.

9. Projet fil rouge : une stack IA souveraine

Le projet intégrateur assemble toutes les briques en une stack self-hostée : modèle local, base vectorielle, passerelle, assistant RAG agentique, serveur MCP et exposition sécurisée. C'est le meilleur moyen de voir comment les pièces s'emboîtent en conditions réelles.

Assembler la stack de bout en bout Ollama + Qdrant + LiteLLM + assistant + MCP, exposés derrière un reverse proxy.

Et pour coder avec l'IA

Si votre besoin est d'utiliser l'IA pour coder plutôt que de construire des applications IA, le parcours dédié à Claude Code couvre l'assistant d'Anthropic dans le terminal et l'IDE, de la prise en main aux workflows industrialisés.

Claude Code : l'IA dans votre terminal Installer, configurer et industrialiser l'assistant de codage d'Anthropic.

Vibe coding : coder par intention Le concept : programmer en langage naturel, avec quels outils et quels garde-fous.

Gemini CLI : l'agent de Google Installer et utiliser l'agent de codage CLI de Google, et le comparer à Claude Code.

Par où commencer

Le bon point de départ dépend de votre objectif. Pour expérimenter vite, lancez un modèle avec Ollama (module 2). Pour monter en compétence dans l'ordre, suivez les modules depuis les fondamentaux. Pour viser la production, gardez le projet fil rouge comme cap.

Découvrir : un LLM en local Le point d'entrée le plus rapide, sur votre machine.

Apprendre : le parcours Python/IA Le pivot complet, des fondamentaux à la production.

Construire : la stack souveraine Le projet intégrateur de bout en bout.

Glossaire express

Les termes que vous croiserez tout au long du parcours :

LLM (Large Language Model) : modèle de langage qui génère du texte (Llama, Mistral, GPT...).
RAG : technique qui ancre les réponses dans vos documents, sans réentraînement.
Agent : un LLM doté d'outils, d'une boucle de décision et d'une mémoire.
MCP (Model Context Protocol) : standard qui connecte un LLM à vos outils et données.
Fine-tuning : ré-entraîner un modèle pour changer son comportement (via LoRA, QLoRA).
Embeddings : représentation vectorielle d'un texte, base de la recherche sémantique.
Quantification : réduire la précision des poids pour faire tenir un modèle en mémoire.
Guardrails : contrôles d'entrée/sortie qui encadrent ce qu'un LLM reçoit et renvoie.

Questions fréquentes

Faut-il savoir coder pour suivre ce parcours ?

Oui, un niveau Python intermédiaire est attendu, avec l'aise sur Docker et la ligne de commande. Le module Fondamentaux reste accessible sans, mais la pratique suppose de coder.

RAG ou fine-tuning : lequel choisir ?

Le RAG pour donner au modèle accès à des connaissances (vos documents, des données à jour) ; le fine-tuning pour changer son comportement (ton, format, domaine). En cas de doute, commencez par le RAG : moins coûteux, il couvre la majorité des besoins.

Peut-on faire de l'IA générative sans cloud ?

Oui, c'est le parti pris du parcours. Avec Ollama puis des moteurs comme vLLM, vous exécutez des modèles en local, vos données restant chez vous : l'approche self-hosting et souveraine.

Quelle différence entre un agent et un chatbot ?

Un chatbot répond ; un agent agit : il choisit et appelle des outils, observe le résultat et itère vers un objectif. L'agent ajoute une boucle et des outils au modèle.

Combien de temps pour devenir opérationnel ?

Les modules 1 à 4 donnent déjà de quoi livrer un assistant utile en quelques jours de pratique. Les modules avancés (agents, MCP, sécurité, projet fil rouge) demandent davantage de temps mais amènent au niveau production.