
Les guides de ce parcours ont posé chaque brique séparément : le RAG, les agents, le MCP, l'interface, le déploiement. Ce fil rouge les assemble en un projet unique et cohérent — un assistant documentaire que l'on construit, sécurise et exploite, entièrement sur sa propre infrastructure. Aucune donnée ne sort, aucune API tierce facturée à l'usage : c'est une stack IA souveraine. Cette page pose l'architecture cible — les composants, leur rôle, le guide qui détaille chacun — et trace le parcours des quatre étapes suivantes. C'est une page carte : suivez ses liens pour approfondir chaque brique. Public visé : développeur ayant suivi le parcours et voulant le tableau d'ensemble avant d'assembler.
Ce que vous allez apprendre
Section intitulée « Ce que vous allez apprendre »- Ce qu'est une stack IA souveraine et pourquoi l'auto-héberger.
- L'architecture cible et le rôle de chaque composant.
- Quel guide du parcours détaille chaque brique assemblée.
- Le parcours du fil rouge en quatre étapes concrètes.
Pourquoi une stack souveraine
Section intitulée « Pourquoi une stack souveraine »Construire un assistant IA en appelant une API tierce est rapide — mais cela a un prix, et pas seulement financier. Les données de vos documents transitent par un service externe. La disponibilité dépend d'un fournisseur. Le coût croît avec l'usage, sans plafond maîtrisé.
Une stack souveraine fait le choix inverse : tout s'exécute sur une infrastructure que vous contrôlez. Le modèle de langage, la base vectorielle, l'interface — chaque composant tourne chez vous. Le modèle de chat lui-même est Mistral Small, un modèle à poids ouverts conçu en France : la souveraineté ne s'arrête pas à l'hébergement, elle inclut le choix du modèle. Les documents indexés ne quittent jamais votre réseau. Le coût est celui du matériel et de l'électricité, connu d'avance. Et le parcours a montré, guide après guide, que chaque brique a son équivalent auto-hébergeable.
Ce n'est pas un choix idéologique mais pratique : pour une documentation interne, des runbooks, des données métier, la maîtrise de bout en bout est souvent un prérequis. Le fil rouge montre que cette maîtrise est atteignable avec les briques du parcours.
L'architecture cible
Section intitulée « L'architecture cible »La stack s'organise en couches, de l'infrastructure à l'utilisateur. Chaque composant a son guide dédié — la colonne de droite y renvoie.
| Couche | Composant | Rôle | Guide |
|---|---|---|---|
| Modèles | Ollama | Inférence locale du modèle Mistral Small et des embeddings | LLM · Embeddings |
| Données | Qdrant | Base vectorielle du RAG | Qdrant |
| Passerelle | LiteLLM proxy | Point d'accès unique aux modèles, clés | LiteLLM Proxy |
| Application | L'assistant | RAG agentique : ingestion, recherche, réponse | RAG · Agents |
| Interface | Chainlit | Interface web conversationnelle, streaming | Chainlit |
| Supervision | Serveur MCP FinOps | Coût et ressources de la stack | Serveur MCP · Agents et MCP |
| Exposition | Traefik | Reverse proxy, TLS, routage | Déployer un serveur MCP |
| Accès | authentik | Authentification des utilisateurs | Authentification MCP |
Le flux se lit de bas en haut. Une requête utilisateur arrive par Traefik, qui termine le TLS et vérifie l'authentification auprès d'authentik. Elle atteint Chainlit, qui transmet la question à l'assistant. Celui-ci interroge Qdrant pour le contexte, passe par le proxy LiteLLM pour appeler Ollama, et renvoie une réponse sourcée.
Utilisateur → Traefik (TLS) → authentik (auth) ↓ Chainlit (UI) ↓ Assistant RAG agentique ↙ ↓ ↘ Qdrant serveur MCP FinOps LiteLLM → OllamaLes briques du fil rouge et leurs guides
Section intitulée « Les briques du fil rouge et leurs guides »Le fil rouge ne réinvente rien : il branche des briques déjà construites dans le parcours. Voici la carte complète — chaque brique renvoie à son guide pour approfondir.
La préparation des données alimente le RAG : extraire du contenu web, nettoyer les textes, découper en chunks — voire un chunking sémantique.
Le cœur RAG transforme et interroge : les embeddings, la base vectorielle Qdrant, le RAG complet, puis la recherche avancée — recherche hybride et re-ranking.
L'intelligence agentique rend l'assistant autonome : le RAG agentique qui boucle pour se corriger, la mémoire court et long terme, et plus largement le parcours agents.
L'exposition et la supervision rendent la stack exploitable : l'interface Chainlit, la passerelle LiteLLM, le protocole MCP pour la supervision FinOps, le déploiement derrière Traefik, l'authentification authentik et l'évaluation en production.
Le parcours du fil rouge
Section intitulée « Le parcours du fil rouge »Les quatre pages suivantes construisent la stack, couche par couche. Chacune est autonome et livrée avec son lab validé.
L'ordre est celui de la construction. On pose d'abord le socle — les services dont tout dépend. On bâtit ensuite l'assistant — la valeur métier. On ajoute la supervision FinOps — la visibilité sur le coût. On termine par l'exposition — ce qui rend le service sûr pour de vrais utilisateurs.
À retenir
Section intitulée « À retenir »- Une stack souveraine exécute toute la chaîne IA sur une infrastructure maîtrisée — les données ne sortent pas.
- L'architecture s'organise en couches : modèles, données, application, supervision, exposition.
- Le fil rouge assemble les briques du parcours — RAG, agents, MCP, interface, déploiement — sans rien réinventer.
- Chaque brique a son guide dédié : cette page en est la carte, suivez ses liens pour approfondir.
- La construction suit quatre étapes : socle, assistant, supervision FinOps, exposition sécurisée.
- L'assistant documentaire est le cœur : un RAG agentique, doté de mémoire, sur Qdrant.