RAG : augmenter un LLM avec vos données

Un modèle de langage répond à côté quand on l'interroge sur une documentation interne : il ne l'a jamais vue. Le RAG, Retrieval-Augmented Generation, résout ce problème sans réentraîner le modèle : il cherche les passages pertinents dans vos documents, puis les injecte dans le prompt pour produire une réponse précise et sourcée. Cette page est la porte d'entrée du parcours RAG : elle explique l'architecture en deux phases, les quatre décisions qui pèsent le plus sur la qualité, et enchaîne sur les guides pratiques, de l'extraction du contenu jusqu'au RAG en production. Public visé : développeur qui veut construire un assistant fiable sur ses propres données.

Ce que vous allez apprendre

Ce qu'est un RAG et le problème concret qu'il résout.
L'architecture en deux phases : indexation et recherche.
Les quatre décisions clés qui déterminent la qualité.
Le parcours complet, étape par étape, jusqu'à la production.

Qu'est-ce qu'un RAG

Un modèle de langage connaît énormément de choses, mais pas les vôtres : ni votre documentation interne, ni vos runbooks, ni vos post-mortems. Posez-lui une question dessus, et il invente une réponse plausible, une hallucination, ou avoue son ignorance.

Le RAG renverse l'approche. Au lieu d'espérer que le modèle « connaisse » vos documents, on les lui fournit au moment de la question. Le système cherche les passages utiles dans votre base documentaire, les place dans le prompt, et le modèle rédige sa réponse à partir de ce contexte.

Le RAG n'est pas la seule façon d'adapter un modèle, et il ne couvre pas tous les besoins. Le tableau ci-dessous situe quand il s'impose et quand une autre approche convient mieux.

Besoin	Approche adaptée
Répondre à partir de docs internes, wiki, runbooks	RAG
Données qui changent souvent	RAG
Imposer un style (ton, format)	Prompt engineering, fine-tuning
Agir : déployer, ouvrir un ticket	Agent + outils
Ancrer des connaissances générales durables	Fine-tuning

Pourquoi le RAG s'impose

Trois propriétés expliquent que le RAG soit devenu l'approche par défaut pour exploiter des données propriétaires.

Il est à jour. La base documentaire se met à jour indépendamment du modèle : un document modifié ce matin est interrogeable cet après-midi, sans réentraînement.

Il est vérifiable. Comme la réponse s'appuie sur des passages identifiés, le RAG peut citer ses sources, l'utilisateur remonte au document d'origine et tranche lui-même. C'est la différence entre une réponse opaque et une réponse auditable.

Il est économe. Pas de fine-tuning, pas de GPU d'entraînement : un RAG se construit avec une base vectorielle, un modèle d'embedding et un modèle de génération, tous trois exécutables en local, sur l'infrastructure que vous maîtrisez.

L'architecture en deux phases

Un RAG se décompose en deux phases distinctes, qui ne s'exécutent pas au même moment.

Pipeline RAG : indexation, recherche et génération

La phase d'indexation prépare les documents. Elle tourne une fois, puis à chaque mise à jour du corpus, c'est du traitement par lots, hors ligne.

Collecter, récupérer le contenu : pages web, Markdown, PDF.
Nettoyer, retirer le HTML résiduel, normaliser l'encodage et les espaces.
Découper, diviser chaque document en chunks de quelques centaines de mots.
Encoder, transformer chaque chunk en vecteur numérique (embedding).
Stocker, ranger les vecteurs dans une base vectorielle (Qdrant).

La phase de recherche et génération s'exécute, elle, à chaque question de l'utilisateur, en ligne, en temps réel.

Encoder la question, la transformer en vecteur, avec le même modèle d'embedding.
Rechercher, trouver les chunks les plus proches par similarité.
Construire le prompt, injecter les chunks pertinents dans le contexte.
Générer, le modèle rédige la réponse à partir de ce contexte.
Citer, joindre les sources des chunks utilisés.

Les quatre décisions clés

Quatre choix pèsent plus que tous les autres sur la qualité d'un RAG. Les garder en tête dès le départ évite des refontes.

La taille des chunks d'abord. Trop petits, ils perdent leur contexte et deviennent incompréhensibles ; trop grands, leur embedding se dilue et noie le signal. Quelques centaines de mots, avec un léger recouvrement entre chunks voisins, est le bon équilibre de départ.

Le modèle d'embedding ensuite. C'est lui qui décide si deux textes « se ressemblent ». Un modèle inadapté à votre langue ou à votre domaine fait échouer la recherche en amont de tout le reste, un RAG francophone exige un modèle d'embedding multilingue.

Le nombre de chunks récupérés, le top-K. Trop peu, et l'information utile est manquée ; trop, et le contexte se remplit de bruit qui dégrade la réponse. Une poignée de chunks bien choisis vaut mieux qu'une vingtaine au hasard.

Le type de recherche enfin. La recherche dense seule, par similarité de sens, rate les termes exacts : codes d'erreur, identifiants, noms de fonctions. Sur de la documentation technique, la combiner à une recherche lexicale (recherche hybride) change nettement les résultats.

Le parcours complet

Le reste du parcours déroule chaque étape dans l'ordre. Suivez-le linéairement pour une progression logique, ou sautez à rag-pratique pour assembler un RAG d'un coup.

Préparer les données

Avant d'indexer, il faut un corpus propre. Ces trois guides couvrent la collecte et la préparation du texte.

Extraire du contenu web Récupérer le texte utile d'une page, sans menus ni publicités, avec Trafilatura.

Nettoyer les textes Normaliser l'encodage, segmenter en phrases, préparer le texte pour l'indexation.

Découper en chunks Les stratégies de chunking comparées : taille fixe, récursif, structurel, sémantique.

Indexer et rechercher

Le cœur du RAG : transformer le texte en vecteurs et le stocker dans une base capable de recherche par similarité.

Embeddings et similarité Transformer du texte en vecteurs, comprendre la similarité cosinus, choisir un modèle.

Bases de données vectorielles Le rôle d'une base vectorielle, l'indexation, les cas d'usage.

FAISS La bibliothèque de recherche vectorielle en mémoire, idéale pour prototyper.

Chroma Une base vectorielle embarquée, simple à prendre en main en développement.

Assembler, optimiser, industrialiser

Une fois les briques connues, on assemble le pipeline, on en améliore la pertinence, puis on le met en production.

RAG pratique Construire un RAG complet sur Qdrant : indexation, recherche, génération sourcée.

RAG avancé Recherche hybride, re-ranking, RAG agentique : améliorer la qualité du retrieval.

RAG en production Sécurité, filtrage par droits, évaluation et observabilité d'un RAG exploité.

Pièges courants

Quelques erreurs reviennent systématiquement sur un premier RAG. Les connaître à l'avance fait gagner des heures de débogage.

Erreur	Conséquence	Correction
Chunks trop gros	Embeddings dilués, bruit	Quelques centaines de mots par chunk
Pas de recouvrement	Contexte perdu aux frontières	Recouvrement léger entre chunks voisins
Recherche dense seule	Rate les codes et identifiants exacts	Ajouter une recherche lexicale (hybride)
Prompt trop permissif	Le modèle hallucine hors contexte	« Réponds uniquement à partir du contexte »
Documents mal extraits	Retrieval incohérent	Nettoyer le corpus avant indexation
Aucune métrique	Impossible de mesurer un progrès	Évaluer le RAG sur un jeu de questions

Contrôle de connaissances

Vérifiez que l'essentiel de ce guide est acquis. Les questions portent uniquement sur ce qui vient d'être expliqué ici.

Contrôle de connaissances

Validez vos connaissances avec ce quiz interactif

6 questions

6 min.

70% requis

Informations

Le chronomètre démarre au clic sur Démarrer
Questions à choix multiples, vrai/faux et réponses courtes
Vous pouvez naviguer entre les questions
Les résultats détaillés sont affichés à la fin

À retenir

Le RAG fournit au modèle vos documents au moment de la question, pas de réentraînement.
Il est à jour, vérifiable (sources citées) et économe (exécutable en local).
L'architecture a deux phases : indexation hors ligne, recherche et génération en temps réel.
Quatre décisions dominent : taille des chunks, modèle d'embedding, top-K, type de recherche.
La recherche hybride dépasse la recherche dense seule sur la documentation technique.
Sans évaluation, on pilote un RAG à l'aveugle.

Questions fréquentes

Le RAG, c'est quoi en une phrase ?

Le RAG (Retrieval-Augmented Generation) fournit ses documents à un LLM au moment de la question : il cherche les passages pertinents, les injecte dans le prompt, et le modèle répond à partir de ce contexte en citant ses sources.

RAG ou fine-tuning : lequel choisir ?

Le RAG donne accès à des connaissances (documents, données à jour) ; le fine-tuning change le comportement (ton, format). En cas de doute, commencez par le RAG : moins coûteux, sans réentraînement, il couvre la majorité des besoins.

Le RAG supprime-t-il les hallucinations ?

Le RAG réduit fortement les hallucinations en ancrant la réponse dans des passages réels et vérifiables, mais ne les élimine pas. Un prompt strict et l'évaluation sur un jeu de questions restent indispensables.

Quels outils pour construire un RAG ?

Trois briques : un modèle d'embedding pour la recherche sémantique, une base vectorielle (Qdrant, FAISS, Chroma) et un modèle de génération servi via Ollama ou vLLM. Toutes sont exécutables en local.

RAG ou recherche par mots-clés : quelle différence ?

La recherche dense (par le sens) capte les reformulations que les mots-clés ratent, mais manque les termes exacts comme les codes ou identifiants. Sur de la doc technique, la recherche hybride (dense plus lexicale) donne les meilleurs résultats.

Prochaines étapes

Extraire du contenu web Première étape du parcours : collecter le corpus à indexer.

RAG pratique Parcours accéléré : assembler un RAG complet en un seul guide.

Panorama de l'IA générative Situer le RAG parmi les autres briques de l'IA générative.

Formation IA générative Le parcours complet : comprendre, exécuter, construire, industrialiser.

RAG : augmenter un LLM avec vos données

Ce que vous allez apprendre

Qu'est-ce qu'un RAG

Pourquoi le RAG s'impose

L'architecture en deux phases

Les quatre décisions clés

Le parcours complet

Préparer les données

Indexer et rechercher

Assembler, optimiser, industrialiser

Pièges courants

Contrôle de connaissances

Contrôle de connaissances

Informations

Vérification

Profil de compétences

Quoi faire maintenant

À retenir

Questions fréquentes

Prochaines étapes