Aller au contenu
medium

Formation IA pour ingénieurs : LLM, RAG, agents, MCP

9 min de lecture

Ce parcours vous mène de A à Z : comprendre les LLM, en faire tourner un en local, construire un RAG sur vos données, outiller des agents, exposer des serveurs MCP, puis observer et sécuriser le tout. L'angle est celui d'un ingénieur infrastructure et sécurité : on privilégie le self-hosting, la reproductibilité et le contrôle des coûts, pas la dépendance à une API propriétaire. Chaque module s'appuie sur des labs reproductibles. C'est la porte d'entrée du thème IA du site.

Il vise les développeurs, DevOps, SRE et platform engineers qui veulent construire avec l'IA générative, pas seulement l'utiliser. Les prérequis sont du Python et l'aise avec Docker et la ligne de commande. La progression va du débutant (modules 1 à 3) à l'avancé (modules 4 à 7) ; vous pouvez aussi piocher un module précis selon votre besoin.

Beaucoup de cursus IA s'arrêtent à l'appel d'API d'un fournisseur. Ici, quatre partis pris assumés :

  • Self-hosting d'abord : tout peut tourner sans dépendre du cloud, vos données restent chez vous.
  • Angle infra et sécurité : observabilité, coûts et durcissement sont traités comme en production.
  • Des labs reproductibles : chaque module pratique s'appuie sur un lab testé, avec versions épinglées.
  • Une couverture rare : MCP et agents sont traités en profondeur, ce qu'on trouve peu en français.

L'objectif : des compétences durables, qui restent valables quand les modèles et les fournisseurs changent.

Suivez l'ordre si vous débutez ; sinon, ciblez directement le module utile. Indication de niveau par module :

ModulesNiveau
1 Fondamentaux, 2 Exécuter un LLMDébutant
3 Fine-tuning, 4 RAGIntermédiaire
5 Agents, 6 MCPIntermédiaire à avancé
7 Observabilité, 8 SécuritéAvancé
9 Projet fil rougeAvancé (synthèse)

On commence par comprendre ce qu'est un LLM, comment il génère du texte, et comment le piloter par le prompt. Ces bases conditionnent tout le reste : un bon prompt évite souvent un système complexe. Vous y verrez aussi les limites des modèles, pour garder un regard d'ingénieur.

Avant de construire, il faut servir un modèle. On part d'Ollama pour exécuter un LLM sur votre machine, puis on unifie les appels avec la passerelle LiteLLM, et on passe aux moteurs d'inférence (vLLM, SGLang) et à la quantification pour la production. C'est le socle qui rend tout le reste souverain.

Quand le prompt et le RAG ne suffisent plus, on modifie le comportement du modèle. Le fine-tuning (via LoRA et QLoRA) spécialise un LLM sur vos données, mais c'est la solution la plus coûteuse et la plus souvent mal employée. L'essentiel est de savoir quand y recourir, et surtout quand l'éviter.

Le RAG ancre les réponses du modèle dans votre corpus, sans réentraînement. C'est la brique la plus demandée en entreprise, et celle où les détails d'ingénierie (découpage, embeddings, base vectorielle, re-ranking, évaluation) font la différence entre une démo et un système fiable.

Un agent est un LLM doté d'outils, d'une boucle de décision et d'une mémoire. Ce module couvre le function calling, les frameworks (PydanticAI, LangGraph), le multi-agents, la mémoire et la sandbox d'exécution, indispensable dès qu'un agent exécute du code.

Le MCP est le standard qui connecte proprement vos agents à vos outils et données, sans intégration jetable à chaque fois. Ce module va de l'architecture à la construction de clients et serveurs, jusqu'à la sécurité MCP et le déploiement, le tout appuyé sur des serveurs réellement construits.

C'est ce qui distingue un prototype d'un service de production. Une application IA pose des questions nouvelles : quel prompt, à quel coût, avec quelle latence, et surtout quelle qualité ? L'observabilité et l'évaluation systématiques sont les chantiers les plus négligés, donc les plus différenciants.

Mettre un LLM en production ouvre une surface d'attaque inédite : prompt injection, fuite de données, excès d'autonomie d'un agent. Ce module pose le panorama défensif (OWASP Top 10 LLM, guardrails, défense en profondeur). C'est l'un des chantiers les plus négligés, donc les plus différenciants, et c'est l'angle naturel d'un ingénieur infra/sécurité.

Le projet intégrateur assemble toutes les briques en une stack self-hostée : modèle local, base vectorielle, passerelle, assistant RAG agentique, serveur MCP et exposition sécurisée. C'est le meilleur moyen de voir comment les pièces s'emboîtent en conditions réelles.

Si votre besoin est d'utiliser l'IA pour coder plutôt que de construire des applications IA, le parcours dédié à Claude Code couvre l'assistant d'Anthropic dans le terminal et l'IDE, de la prise en main aux workflows industrialisés.

Le bon point de départ dépend de votre objectif. Pour expérimenter vite, lancez un modèle avec Ollama (module 2). Pour monter en compétence dans l'ordre, suivez les modules depuis les fondamentaux. Pour viser la production, gardez le projet fil rouge comme cap.

Les termes que vous croiserez tout au long du parcours :

  • LLM (Large Language Model) : modèle de langage qui génère du texte (Llama, Mistral, GPT...).
  • RAG : technique qui ancre les réponses dans vos documents, sans réentraînement.
  • Agent : un LLM doté d'outils, d'une boucle de décision et d'une mémoire.
  • MCP (Model Context Protocol) : standard qui connecte un LLM à vos outils et données.
  • Fine-tuning : ré-entraîner un modèle pour changer son comportement (via LoRA, QLoRA).
  • Embeddings : représentation vectorielle d'un texte, base de la recherche sémantique.
  • Quantification : réduire la précision des poids pour faire tenir un modèle en mémoire.
  • Guardrails : contrôles d'entrée/sortie qui encadrent ce qu'un LLM reçoit et renvoie.

Oui, un niveau Python intermédiaire est attendu, avec l'aise sur Docker et la ligne de commande. Le module Fondamentaux reste accessible sans, mais la pratique suppose de coder.

Le RAG pour donner au modèle accès à des connaissances (vos documents, des données à jour) ; le fine-tuning pour changer son comportement (ton, format, domaine). En cas de doute, commencez par le RAG : moins coûteux, il couvre la majorité des besoins.

Oui, c'est le parti pris du parcours. Avec Ollama puis des moteurs comme vLLM, vous exécutez des modèles en local, vos données restant chez vous : l'approche self-hosting et souveraine.

Un chatbot répond ; un agent agit : il choisit et appelle des outils, observe le résultat et itère vers un objectif. L'agent ajoute une boucle et des outils au modèle.

Les modules 1 à 4 donnent déjà de quoi livrer un assistant utile en quelques jours de pratique. Les modules avancés (agents, MCP, sécurité, projet fil rouge) demandent davantage de temps mais amènent au niveau production.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracking. Un soutien, même symbolique, m'aide à couvrir l'hébergement et à garder ces ressources gratuites. Merci pour votre appui.

Le formulaire ne s'affiche pas ? Ouvrir Ko-fi dans un onglet.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn