RAG : Guide pour connecter les LLMs à vos données

Mise à jour : 18/09/2025

Les modèles de langage (LLM) comme GPT excellent pour produire du texte fluide. Pourtant, sans accès à des données externes mises à jour, ils peuvent générer des réponses incomplètes, voire obsolètes. Comment leur permettre de puiser dans une base de connaissances spécifique, à jour et potentiellement volumineuse ? C’est ici qu’intervient la Retrieval-Augmented Generation (RAG).

En combinant recherche documentaire et génération de texte, la RAG garantit des réponses plus factuelles et adaptées au contexte. Plutôt que de s’appuyer uniquement sur les poids du modèle, on lui fournit un « contexte récupéré » issu d’un index externe.

Pourquoi mettre en place la RAG ?

La Retrieval-Augmented Generation (RAG) répond à plusieurs limitations des modèles de langage (LLM) :

Connaissances statiques : Les LLM sont formés sur des données figées à un instant T. Ils ne peuvent pas intégrer de nouvelles informations sans réentraînement.
Manque de précision : Sans accès à des données spécifiques, les LLM peuvent générer des réponses vagues ou incorrectes.
Difficulté à gérer de grandes quantités de données : Les LLM ont tendance à « oublier » des informations importantes dans de longs prompts.

Avantages de la RAG

La RAG présente plusieurs bénéfices par rapport à une génération « pure » :

Pertinence améliorée sans fine-tuning : on oriente le modèle vers des passages ciblés.
Actualisation des données : l’index peut être mis à jour indépendamment du modèle.
Modularité : choix libre du moteur de recherche (ElasticSearch ↗, Pinecone ↗, FAISS) et du LLM.

Quel impact sur vos cas d’usage ? Que ce soit un chatbot client, un moteur de FAQ ou une génération de contenu optimisé SEO, la RAG introduit précision et flexibilité.

Points de vigilance

Rien n’est parfait : la qualité de la RAG dépend directement de l’index et de sa pertinence.

Le contenu des documents indexés doit être de qualité et pertinent pour la tâche visée.
Un mauvais pré-traitement ou un vecteur mal calibré peut générer du bruit : passages hors sujet ou informations redondantes.

Comment fonctionne la RAG ?

Le processus se découpe en trois étapes principales :

Vectorisation : les documents sources sont convertis en vecteurs dans un espace de haute dimension, permettant une recherche efficace.
Indexation : ces vecteurs sont organisés dans une structure d’index (comme FAISS ou Pinecone) pour une récupération rapide.
Récupération et génération : lors d’une question utilisateur, on converti cette question en vecteur, on interroge l’index pour extraire les documents ou passages les plus pertinents. On intègre ces extraits comme contexte dans le prompt envoyé au LLM, qui les utilise pour produire sa réponse.

Chart de fusion des extraits

Cette séparation assure que le modèle reste léger et rapide, tout en disposant d’informations fraîches et spécialement sélectionnées pour la requête.

Composants et architecture de la RAG

Composants clés de la RAG

Pour mettre en place une RAG efficace, plusieurs éléments sont nécessaires :

Modèle d’embeddings : Au cœur de la RAG, l’embeddings transforme textes et requêtes en vecteurs numériques. Ces représentations permettent de mesurer la similarité sémantique. On choisit souvent un modèle open-source (comme SentenceTransformers) ou propriétaire (OpenAI Embeddings). La qualité de ces embeddings conditionne directement la pertinence des documents récupérés.
Base vectorielle : C’est l’endroit où les vecteurs sont stockés et indexés. Contrairement à une base de données classique, elle est optimisée pour la recherche vectorielle. On y retrouve les vecteurs des documents sources, organisés pour permettre une récupération rapide et efficace. Plus d’infos sur les bdd vectorielles.
Retriever : C’est le composant qui interroge l’index avec l’embedding de la requête utilisateur. Il renvoie les passages les plus pertinents (top-k) selon une métrique de distance (cosine ou euclidienne).
LLM : Le modèle de langage qui génère la réponse finale. Il reçoit les passages récupérés comme contexte et produit une réponse adaptée à la requête.

Orchestration du pipeline de RAG

L’architecture d’une RAG repose sur un pipeline orchestré qui relie ces composants.

Le programme suit les étapes suivantes :

Encodage de la question → embeddings
Recherche → top-k documents
Préparation du prompt → injection du contexte
Appel au LLM → génération de la réponse

Des frameworks comme LangChain ou Haystack automatisent ces étapes tout en offrant des hooks pour personnaliser chaque phase.

Comment fonctionne la recherche vectorielle ?

La recherche vectorielle est le cœur de la RAG. Elle permet de trouver des documents pertinents en mesurant la similarité entre vecteurs. Contrairement à une recherche textuelle classique qui s’appuie sur des mots-clés, la recherche vectorielle compare des représentations numériques de textes, capturant ainsi leur signification sémantique.

Comment mesurer cette proximité ? Les deux métriques les plus répandues sont la distance cosinus et la distance euclidienne. La première normalise la longueur des vecteurs, idéale lorsque l’on veut ignorer l’effet de la fréquence des mots ; la seconde tient compte de la magnitude, plus adaptée aux cas où l’amplitude du vecteur porte du sens.

Pour traiter des millions de vecteurs en temps réel, il est nécessaire d’appliquer des optimisations :

Approximate Nearest Neighbors (ANN) Plutôt qu’un scan exhaustif, un algorithme ANN (HNSW, IVF, PQ) partitionne l’espace et se focalise sur les régions les plus prometteuses. Le compromis ? Une légère perte de précision pour un gain considérable en latence.
Sharding et réplication Répartir l’index sur plusieurs nœuds permet de répartir la charge. Chaque shard héberge une portion de vecteurs ; la réplication garantit la tolérance aux pannes et équilibre les requêtes.
Quantification La quantification réduit la taille des vecteurs en les projetant sur un nombre limité de bits (8-bit, 16-bit). On sacrifie un peu de qualité pour diminuer considérablement la mémoire et accélérer les calculs.
Cache de requêtes fréquentes Pour des questions récurrentes, un cache en mémoire (Redis, Memcached) sert directement les résultats, évitant la phase ANN.

Rérank et filtrage avancé

L’étape de récupération directe peut produire des documents hors sujet ou redondants. On y ajoute :

Un rérank via un cross-encoder : ce second modèle classifie plus finement chaque passage.
Un filtrage basé sur des métadonnées (date, auteur, catégorie) pour éviter les documents obsolètes ou non pertinents.

Performances en production

En production, on surveille les indicateurs clés :

Latence des recherches : temps moyen pour obtenir un top-k.
Taux de rappel : proportion de passages réellement pertinents retrouvés.
Taux de faux positifs : documents hors sujet qui survivent au filtrage.

L’équilibre entre qualité et rapidité se dose en ajustant les paramètres ANN, la granularité des documents et la taille du cache.

Optimisation du Prompt pour la RAG

Une fois les documents pertinents récupérés et le contexte assemblé, l’étape finale consiste à construire le prompt parfait. C’est ce prompt qui va guider le LLM pour qu’il utilise le contexte de manière optimale. Un bon prompt pour la RAG ne se contente pas de fournir des données ; il donne des instructions claires sur la manière de les utiliser.

Les Piliers d’un Prompt RAG Efficace

Un prompt RAG robuste repose sur quatre composantes essentielles :

Définition du Rôle (Persona) : Indiquez au LLM quel expert il doit incarner. Cela oriente son ton, son style et son niveau de détail.
- Exemple : “Tu es un analyste financier spécialisé dans les marchés européens.”
Instructions Claires (Règles du jeu) : C’est la partie la plus critique. Vous devez définir comment le modèle doit se comporter avec le contexte fourni.
- Exclusivité du contexte : “Utilise uniquement les informations fournies dans le contexte ci-dessous.”
- Gestion de l’incertitude : “Si la réponse ne se trouve pas dans le contexte, indique-le clairement et n’invente aucune information.”
- Citation des sources : “Cite tes sources en indiquant le document d’où provient l’information.”
- Format de sortie : “Réponds de manière concise, en utilisant des listes à puces si nécessaire.”
Injection du Contexte (Les Faits) : Insérez les documents récupérés, de préférence de manière structurée (par exemple, avec des titres ou des séparateurs). Le classer par pertinence est une bonne pratique.
La Question (La Tâche) : La requête de l’utilisateur, placée à la fin pour que le LLM sache ce qu’il doit faire après avoir lu le contexte et les instructions.

Structure d’un Prompt RAG Avancé

En combinant ces éléments, on obtient une structure de prompt très efficace :

# RÔLE
Tu es un assistant virtuel spécialisé dans l'analyse de documents techniques.

# INSTRUCTIONS
1.  Base ta réponse exclusivement sur les extraits de documents fournis dans le CONTEXTE.
2.  Si le contexte ne contient pas la réponse, réponds "L'information n'est pas disponible dans les documents fournis."
3.  Structure ta réponse de manière claire et concise.
4.  Pour chaque information clé, cite le nom du document source entre crochets. [Exemple : Source A]

# CONTEXTE
---
[Source A: Guide de l'utilisateur v2.1]
Le module de connexion utilise un chiffrement AES-256 pour sécuriser les données en transit.

[Source B: Notes de version 2.0]
La version 2.0 a introduit une nouvelle méthode d'authentification à deux facteurs (2FA).
---

# QUESTION
Comment le système sécurise-t-il les connexions ?

Fusion et encodage du contexte

Une fois les top-k passages extraits, il faut les assembler pour que le LLM en tire parti. On parle de fusion du contexte : ce processus consiste à concaténer ou intégrer ces extraits dans le prompt de façon cohérente. Plutôt que d’enchaîner bêtement plusieurs paragraphes, on structure le texte avec des balises et des titres intermédiaires, pour guider le modèle.

Les LLM ont une fenêtre de tokens limitée (souvent 4 000 à 32 000 tokens). Comment faire tenir plusieurs documents et la question ? Deux approches principales :

Chunking séquentiel : on découpe chaque document en segments de taille fixe (par exemple 500 tokens), puis on garde les meilleurs chunks classés par pertinence.
Résumé intermédiaire : on applique un modèle de résumé léger (pegasus, BART) sur chaque passage avant de les fusionner.

Le résumé permet de réduire drastiquement le volume tout en conservant le sens.

L’ordre dans lequel on place les extraits influence la réponse. Voici un schéma courant :

<system>
Vous êtes un assistant expert.
</system>

<user>
Contexte (classé du plus utile au moins utile) :
1. Extrait A…
2. Extrait B…
3. Extrait C…

Question : {question}
</user>

Cette hiérarchie aide le LLM à prioriser l’information.

Certains frameworks proposent une fusion « intelligente » : ils ajustent dynamiquement la proportion de contexte en fonction de la complexité de la question. Plus la question est simple, moins de texte est injecté, réduisant la latence et le coût.

En soignant la création du prompt, vous transformez votre système RAG d’un simple moteur de recherche en un véritable assistant intelligent, capable de raisonner sur la base des informations que vous lui fournissez. Vous pouvez consulter le guide sur le Prompt Engineering pour approfondir cette thématique.

Implémentation pratique

Sélection du moteur d’embeddings

Pour débuter, il faut choisir un modèle d’embeddings adapté à votre langue et à votre volumétrie. Les options courantes :

OpenAI Embeddings (API proprietaire) : haute qualité, entretien délégué, facturation à l’usage.
SentenceTransformers (open-source) : exécution locale, contrôle total, coût unique.

Le bon choix dépend de vos contraintes de budget et de confidentialité des données.

Frameworks RAG populaires

Plusieurs bibliothèques simplifient la mise en place d’un pipeline RAG en orchestrant embeddings, index et LLM :

LlamaIndex (GPT Index)

LlamaIndex ↗ structure et interroge facilement vos données :

from llama_index import SimpleDirectoryReader, GPTVectorStoreIndex

# Chargement et indexation
docs = SimpleDirectoryReader("data/").load_data()
index = GPTVectorStoreIndex.from_documents(docs)
response = index.query("Explique le process RAG")

Avantages : prise en main rapide, bonne auto-documentation.
Inconvénients : moins de flexibilité pour le reranking ou le filtrage avancé.

LangChain

LangChain ↗ propose des composants modulaires (« chains ») pour assembler rapidement un pipeline RAG :

from langchain import OpenAI, FAISS, RetrievalQA

# Initialisation
llm = OpenAI(model="gpt-4o-mini")
vector_store = FAISS.from_documents(docs, embed_model)

# Création d’un QA system
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="map_reduce",
    retriever=vector_store.as_retriever()
)

Avantages : grande communauté, nombreux exemples, extension facile.
Inconvénients : dépendances multiples, parfois verbeux pour des cas simples, obsolescence rapide des API.

Haystack

Haystack ↗ est une boîte à outils puissante, spécialement conçue pour les projets RAG qui doivent gérer de très grandes quantités de documents.

Au lieu d’assembler des pièces vous-même, Haystack vous propose des “pipelines” prêts à l’emploi. Vous définissez les étapes :

Où sont stockés vos documents (le DocumentStore).
Comment trouver les plus pertinents (le Retriever).
Quel modèle doit générer la réponse (le Generator).

Haystack se charge de connecter le tout pour créer un système de questions-réponses complet.

Exemple de code :

from haystack.document_stores import FAISSDocumentStore
from haystack.nodes import DensePassageRetriever, RAGenerator
from haystack.pipelines import GenerativeQAPipeline

# Document store et retriever
store = FAISSDocumentStore(embedding_dim=768)
retriever = DensePassageRetriever(document_store=store, embed_title=True)

# Générateur et pipeline
generator = RAGenerator(model_name_or_path="facebook/rag-sequence-nq")
pipeline = GenerativeQAPipeline(generator, retriever)

Avantages : Parfait pour la recherche avancée, il se connecte facilement à différentes bases de documents et peut être piloté comme un service web.
Inconvénients : Sa puissance le rend un peu plus complexe à installer au départ, et ses outils de mesure de performance peuvent être difficiles à prendre en main pour un débutant.

Choix de la base de données vectorielle

Pour stocker les vecteurs, plusieurs options s’offrent à vous :

FAISS : Open-source, rapide, idéal pour des index volumineux. Nécessite un peu de configuration.
Milvus ↗ : Open-source, conçu pour la recherche vectorielle à grande échelle, avec une interface simple.
Chroma : Open-source, facile à utiliser, avec une API Python intuitive.
Pinecone ↗ : Service managé, facile à utiliser, mais payant.
Weaviate ↗ : Open-source, avec des fonctionnalités avancées comme la recherche sémantique et les métadonnées intégrées.
ElasticSearch ↗ : Bien connu pour la recherche textuelle, il supporte aussi les embeddings vectoriels. Idéal si vous avez déjà une instance en place.
OpenSearch ↗ : Alternative open-source à ElasticSearch, avec des fonctionnalités similaires pour la recherche vectorielle.
pgvector ↗ : Extension PostgreSQL pour stocker et interroger des vecteurs.

Au moment de choisir, prenez en compte :

Volume de données : FAISS et Milvus sont excellents pour les gros volumes.
Simplicité d’intégration : Chroma et Pinecone sont faciles à configurer.
Fonctionnalités avancées : Weaviate offre des capacités de recherche sémantique et de métadonnées intégrées, ce qui peut être utile pour des cas d’usage complexes.
Compatibilité avec votre stack existante : Si vous utilisez déjà ElasticSearch ou PostgreSQL, l’intégration sera plus simple avec ElasticSearch ou pgvector.
Coût : Les solutions managées comme Pinecone peuvent être plus coûteuses à long terme, tandis que les solutions open-source nécessitent plus de maintenance.
Scalabilité : Si vous prévoyez une croissance rapide, optez pour une solution qui gère bien la scalabilité, comme Milvus ou Weaviate.

Conclusion

La Retrieval-Augmented Generation (RAG) est une approche puissante pour enrichir les capacités des modèles de langage (LLM) en leur permettant d’accéder à des données spécifiques et à jour. Dans ce guide, nous avons exploré les concepts fondamentaux, les composants clés, et les meilleures pratiques pour optimiser la RAG, notamment à travers la recherche vectorielle, l’optimisation des prompts et l’utilisation de frameworks comme LangChain ou Haystack.

Mais la théorie ne suffit pas. Dans notre prochain guide, nous passerons à la pratique en construisant une application complète qui intègre :

Un LLM local pour garantir la confidentialité et réduire les coûts.
Une architecture RAG pour fournir des réponses précises et contextuelles.
Chainlit, un framework interactif pour créer une interface utilisateur intuitive.

Préparez-vous à voir ces concepts en action et à développer une solution robuste et évolutive. À très bientôt pour ce nouveau guide !

Ressources associées

Comprendre les LLM : Guide LLM (architecture, attention)
Utilisation de litellm : Démarrer avec LiteLLM
Structurer vos prompts : Prompt engineering
Vectorisation et index : Bases de données vectorielles
Base vectorielle simple : Chroma
Serveur de recherche avancé : (en cours) OpenSearch (bientôt publié)
Interface utilisateur : Chainlit
Téléchargement / exécution modèles : Hugging Face
Extraction de données sources : Trafilatura
Parcours complet : Formation Python IA