Stack IA souveraine : l'architecture du fil rouge

Les guides de ce parcours ont posé chaque brique séparément : le RAG, les agents, le MCP, l'interface, le déploiement. Ce fil rouge les assemble en un projet unique et cohérent, un assistant documentaire que l'on construit, sécurise et exploite, entièrement sur sa propre infrastructure. Aucune donnée ne sort, aucune API tierce facturée à l'usage : c'est une stack IA souveraine. Cette page pose l'architecture cible, les composants, leur rôle, le guide qui détaille chacun, et trace le parcours des quatre étapes suivantes. C'est une page carte : suivez ses liens pour approfondir chaque brique. Public visé : développeur ayant suivi le parcours et voulant le tableau d'ensemble avant d'assembler.

Ce que vous allez apprendre

Ce qu'est une stack IA souveraine et pourquoi l'auto-héberger.
L'architecture cible et le rôle de chaque composant.
Quel guide du parcours détaille chaque brique assemblée.
Le parcours du fil rouge en quatre étapes concrètes.

Pourquoi une stack souveraine

Construire un assistant IA en appelant une API tierce est rapide, mais cela a un prix, et pas seulement financier. Les données de vos documents transitent par un service externe. La disponibilité dépend d'un fournisseur. Le coût croît avec l'usage, sans plafond maîtrisé.

Une stack souveraine fait le choix inverse : tout s'exécute sur une infrastructure que vous contrôlez. Le modèle de langage, la base vectorielle, l'interface, chaque composant tourne chez vous. Le modèle de chat lui-même est Mistral Small, un modèle à poids ouverts conçu en France : la souveraineté ne s'arrête pas à l'hébergement, elle inclut le choix du modèle. Les documents indexés ne quittent jamais votre réseau. Le coût est celui du matériel et de l'électricité, connu d'avance. Et le parcours a montré, guide après guide, que chaque brique a son équivalent auto-hébergeable.

Ce n'est pas un choix idéologique mais pratique : pour une documentation interne, des runbooks, des données métier, la maîtrise de bout en bout est souvent un prérequis. Le fil rouge montre que cette maîtrise est atteignable avec les briques du parcours.

L'architecture cible

La stack s'organise en couches, de l'infrastructure à l'utilisateur. Chaque composant a son guide dédié, la colonne de droite y renvoie.

Couche	Composant	Rôle	Guide
Modèles	Ollama	Inférence locale du modèle Mistral Small et des embeddings	LLM · Embeddings
Données	Qdrant	Base vectorielle du RAG	Qdrant
Passerelle	LiteLLM proxy	Point d'accès unique aux modèles, clés	LiteLLM Proxy
Application	L'assistant	RAG agentique : ingestion, recherche, réponse	RAG · Agents
Interface	Chainlit	Interface web conversationnelle, streaming	Chainlit
Supervision	Serveur MCP FinOps	Coût et ressources de la stack	Serveur MCP · Agents et MCP
Exposition	Traefik	Reverse proxy, TLS, routage	Déployer un serveur MCP
Accès	authentik	Authentification des utilisateurs	Authentification MCP

Le flux se lit de bas en haut. Une requête utilisateur arrive par Traefik, qui termine le TLS et vérifie l'authentification auprès d'authentik. Elle atteint Chainlit, qui transmet la question à l'assistant. Celui-ci interroge Qdrant pour le contexte, passe par le proxy LiteLLM pour appeler Ollama, et renvoie une réponse sourcée.

Utilisateur → Traefik (TLS) → authentik (auth)
                                  ↓
                              Chainlit (UI)
                                  ↓
                           Assistant RAG agentique
                       ↙          ↓          ↘
                  Qdrant   serveur MCP FinOps   LiteLLM → Ollama

Les briques du fil rouge et leurs guides

Le fil rouge ne réinvente rien : il branche des briques déjà construites dans le parcours. Voici la carte complète, chaque brique renvoie à son guide pour approfondir.

La préparation des données alimente le RAG : extraire du contenu web, nettoyer les textes, découper en chunks, voire un chunking sémantique.

Le cœur RAG transforme et interroge : les embeddings, la base vectorielle Qdrant, le RAG complet, puis la recherche avancée, recherche hybride et re-ranking.

L'intelligence agentique rend l'assistant autonome : le RAG agentique qui boucle pour se corriger, la mémoire court et long terme, et plus largement le parcours agents.

L'exposition et la supervision rendent la stack exploitable : l'interface Chainlit, la passerelle LiteLLM, le protocole MCP pour la supervision FinOps, le déploiement derrière Traefik, l'authentification authentik et l'évaluation en production.

Le parcours du fil rouge

Les quatre pages suivantes construisent la stack, couche par couche. Chacune est autonome et livrée avec son lab validé.

Le socle self-hosted Étape 1 : Ollama, Qdrant et le proxy LiteLLM, assemblés en Docker Compose.

L'assistant documentaire Étape 2 : le RAG agentique, la mémoire et le streaming, exposés via Chainlit.

Observabilité FinOps par MCP Étape 3 : un serveur MCP qui expose le coût et les ressources de la stack.

Exposition sécurisée et bilan Étape 4 : Traefik et authentik en façade, observabilité et coûts.

L'ordre est celui de la construction. On pose d'abord le socle, les services dont tout dépend. On bâtit ensuite l'assistant, la valeur métier. On ajoute la supervision FinOps, la visibilité sur le coût. On termine par l'exposition, ce qui rend le service sûr pour de vrais utilisateurs.

Contrôle de connaissances

Vérifiez que l'essentiel de ce guide est acquis. Les questions portent uniquement sur ce qui vient d'être expliqué ici.

Contrôle de connaissances

Validez vos connaissances avec ce quiz interactif

6 questions

6 min.

70% requis

Informations

Le chronomètre démarre au clic sur Démarrer
Questions à choix multiples, vrai/faux et réponses courtes
Vous pouvez naviguer entre les questions
Les résultats détaillés sont affichés à la fin

À retenir

Une stack souveraine exécute toute la chaîne IA sur une infrastructure maîtrisée, les données ne sortent pas.
L'architecture s'organise en couches : modèles, données, application, supervision, exposition.
Le fil rouge assemble les briques du parcours, RAG, agents, MCP, interface, déploiement, sans rien réinventer.
Chaque brique a son guide dédié : cette page en est la carte, suivez ses liens pour approfondir.
La construction suit quatre étapes : socle, assistant, supervision FinOps, exposition sécurisée.
L'assistant documentaire est le cœur : un RAG agentique, doté de mémoire, sur Qdrant.

Prochaines étapes

Le socle self-hosted Commencer la construction : Ollama, Qdrant et LiteLLM en Compose.

Formation IA générative Le parcours complet dont ce fil rouge est l'aboutissement.

Le parcours RAG Toutes les briques RAG, du concept à la production.

Le parcours agents IA Les agents, dont la boucle agentique du RAG du fil rouge.

Stack IA souveraine : l'architecture du fil rouge

Ce que vous allez apprendre

Pourquoi une stack souveraine

L'architecture cible

Les briques du fil rouge et leurs guides

Le parcours du fil rouge

Contrôle de connaissances

Contrôle de connaissances

Informations

Vérification

Profil de compétences

Quoi faire maintenant

À retenir

Prochaines étapes