Aller au contenu
Développement medium

Stack IA souveraine : l'architecture du fil rouge

8 min de lecture

logo python

Les guides de ce parcours ont posé chaque brique séparément : le RAG, les agents, le MCP, l'interface, le déploiement. Ce fil rouge les assemble en un projet unique et cohérent — un assistant documentaire que l'on construit, sécurise et exploite, entièrement sur sa propre infrastructure. Aucune donnée ne sort, aucune API tierce facturée à l'usage : c'est une stack IA souveraine. Cette page pose l'architecture cible — les composants, leur rôle, le guide qui détaille chacun — et trace le parcours des quatre étapes suivantes. C'est une page carte : suivez ses liens pour approfondir chaque brique. Public visé : développeur ayant suivi le parcours et voulant le tableau d'ensemble avant d'assembler.

  • Ce qu'est une stack IA souveraine et pourquoi l'auto-héberger.
  • L'architecture cible et le rôle de chaque composant.
  • Quel guide du parcours détaille chaque brique assemblée.
  • Le parcours du fil rouge en quatre étapes concrètes.

Construire un assistant IA en appelant une API tierce est rapide — mais cela a un prix, et pas seulement financier. Les données de vos documents transitent par un service externe. La disponibilité dépend d'un fournisseur. Le coût croît avec l'usage, sans plafond maîtrisé.

Une stack souveraine fait le choix inverse : tout s'exécute sur une infrastructure que vous contrôlez. Le modèle de langage, la base vectorielle, l'interface — chaque composant tourne chez vous. Le modèle de chat lui-même est Mistral Small, un modèle à poids ouverts conçu en France : la souveraineté ne s'arrête pas à l'hébergement, elle inclut le choix du modèle. Les documents indexés ne quittent jamais votre réseau. Le coût est celui du matériel et de l'électricité, connu d'avance. Et le parcours a montré, guide après guide, que chaque brique a son équivalent auto-hébergeable.

Ce n'est pas un choix idéologique mais pratique : pour une documentation interne, des runbooks, des données métier, la maîtrise de bout en bout est souvent un prérequis. Le fil rouge montre que cette maîtrise est atteignable avec les briques du parcours.

La stack s'organise en couches, de l'infrastructure à l'utilisateur. Chaque composant a son guide dédié — la colonne de droite y renvoie.

CoucheComposantRôleGuide
ModèlesOllamaInférence locale du modèle Mistral Small et des embeddingsLLM · Embeddings
DonnéesQdrantBase vectorielle du RAGQdrant
PasserelleLiteLLM proxyPoint d'accès unique aux modèles, clésLiteLLM Proxy
ApplicationL'assistantRAG agentique : ingestion, recherche, réponseRAG · Agents
InterfaceChainlitInterface web conversationnelle, streamingChainlit
SupervisionServeur MCP FinOpsCoût et ressources de la stackServeur MCP · Agents et MCP
ExpositionTraefikReverse proxy, TLS, routageDéployer un serveur MCP
AccèsauthentikAuthentification des utilisateursAuthentification MCP

Le flux se lit de bas en haut. Une requête utilisateur arrive par Traefik, qui termine le TLS et vérifie l'authentification auprès d'authentik. Elle atteint Chainlit, qui transmet la question à l'assistant. Celui-ci interroge Qdrant pour le contexte, passe par le proxy LiteLLM pour appeler Ollama, et renvoie une réponse sourcée.

Utilisateur → Traefik (TLS) → authentik (auth)
Chainlit (UI)
Assistant RAG agentique
↙ ↓ ↘
Qdrant serveur MCP FinOps LiteLLM → Ollama

Le fil rouge ne réinvente rien : il branche des briques déjà construites dans le parcours. Voici la carte complète — chaque brique renvoie à son guide pour approfondir.

La préparation des données alimente le RAG : extraire du contenu web, nettoyer les textes, découper en chunks — voire un chunking sémantique.

Le cœur RAG transforme et interroge : les embeddings, la base vectorielle Qdrant, le RAG complet, puis la recherche avancéerecherche hybride et re-ranking.

L'intelligence agentique rend l'assistant autonome : le RAG agentique qui boucle pour se corriger, la mémoire court et long terme, et plus largement le parcours agents.

L'exposition et la supervision rendent la stack exploitable : l'interface Chainlit, la passerelle LiteLLM, le protocole MCP pour la supervision FinOps, le déploiement derrière Traefik, l'authentification authentik et l'évaluation en production.

Les quatre pages suivantes construisent la stack, couche par couche. Chacune est autonome et livrée avec son lab validé.

L'ordre est celui de la construction. On pose d'abord le socle — les services dont tout dépend. On bâtit ensuite l'assistant — la valeur métier. On ajoute la supervision FinOps — la visibilité sur le coût. On termine par l'exposition — ce qui rend le service sûr pour de vrais utilisateurs.

  • Une stack souveraine exécute toute la chaîne IA sur une infrastructure maîtrisée — les données ne sortent pas.
  • L'architecture s'organise en couches : modèles, données, application, supervision, exposition.
  • Le fil rouge assemble les briques du parcours — RAG, agents, MCP, interface, déploiement — sans rien réinventer.
  • Chaque brique a son guide dédié : cette page en est la carte, suivez ses liens pour approfondir.
  • La construction suit quatre étapes : socle, assistant, supervision FinOps, exposition sécurisée.
  • L'assistant documentaire est le cœur : un RAG agentique, doté de mémoire, sur Qdrant.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracing. Aujourd'hui, ce site ne couvre même pas mes frais d'hébergement, d'électricité, de matériel, de logiciels, mais surtout de cafés.

Un soutien régulier, même symbolique, m'aide à garder ces ressources gratuites et à continuer de produire des guides de qualité. Merci pour votre appui.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn