Aller au contenu
Développement medium

Fine-tuning d'un LLM : quand le faire (et quand l'éviter)

6 min de lecture

Le fine-tuning consiste à ré-entraîner un modèle existant sur vos données pour modifier son comportement (style, format, domaine). C'est puissant, mais c'est aussi la solution la plus coûteuse et la plus souvent mal employée : dans la majorité des cas, un bon prompt ou un RAG répond au besoin sans toucher aux poids du modèle. Cette page vous donne l'arbre de décision : quand fine-tuner, quand s'en passer, et ce que coûtent réellement LoRA et QLoRA. Public visé : développeurs et ingénieurs qui savent déjà appeler un LLM.

  • Décider entre prompt, RAG et fine-tuning selon le besoin réel
  • Ce que sont LoRA et QLoRA, et pourquoi ils ont démocratisé le fine-tuning
  • Le coût réel (GPU, données, maintenance) et les risques à connaître
  • Pourquoi la qualité du dataset prime sur la technique

Un LLM de base a été entraîné sur un corpus généraliste. Le fine-tuning poursuit cet entraînement sur un jeu de données ciblé pour spécialiser le modèle : lui faire adopter un ton, respecter un format de sortie, ou maîtriser un jargon métier. On ne lui apprend pas des faits ponctuels (ça, c'est le rôle du RAG), on modifie sa façon de répondre.

L'analogie utile : le prompt donne des instructions à un employé compétent ; le RAG lui fournit la documentation à consulter ; le fine-tuning l'envoie en formation pour changer durablement ses réflexes. La formation coûte cher et ne se justifie que quand les deux premiers ne suffisent pas.

Prompt vs RAG vs fine-tuning : l'arbre de décision

Section intitulée « Prompt vs RAG vs fine-tuning : l'arbre de décision »

C'est la question à se poser avant tout. La règle est simple : commencer par le moins cher et ne monter en complexité que si le besoin l'exige.

BesoinBonne réponse
Changer le comportement ponctuel (ton, format)Prompt (system prompt, few-shot)
Donner accès à des connaissances à jour ou privéesRAG
Imposer systématiquement un style, un format strict, un domaine pointuFine-tuning
Réduire la latence/coût d'un très gros prompt répétéFine-tuning (parfois)

En pratique, on combine souvent : un modèle fine-tuné sur le format de réponse, alimenté par un RAG pour les faits. Mais on n'y arrive qu'après avoir épuisé le prompt et le RAG seuls.

Le fine-tuning complet (mettre à jour tous les poids) exige des GPU hors de portée de la plupart des équipes. Les méthodes PEFT (Parameter-Efficient Fine-Tuning) ont changé la donne en n'entraînant qu'une petite fraction des paramètres.

  • LoRA (Low-Rank Adaptation) gèle le modèle d'origine et n'entraîne que de petites matrices ajoutées. Résultat : beaucoup moins de mémoire et des adaptateurs de quelques mégaoctets, échangeables à volonté.
  • QLoRA ajoute la quantification (le modèle de base est chargé en 4 bits) : on fine-tune un modèle de plusieurs milliards de paramètres sur un seul GPU grand public. C'est la méthode la plus répandue aujourd'hui.

Concrètement, LoRA et QLoRA permettent d'obtenir 80 à 95 % du gain d'un fine-tuning complet pour une fraction du coût. C'est le point d'entrée recommandé.

Le coût GPU de l'entraînement n'est que la partie visible. Le vrai coût est ailleurs :

  • Les données : constituer un dataset propre et représentatif est le poste le plus lourd, et le plus déterminant.
  • L'évaluation : sans mesure avant/après, vous ne savez pas si le modèle s'est amélioré ou s'il a régressé (oubli catastrophique).
  • La maintenance : un modèle fine-tuné est figé ; chaque évolution du besoin relance un cycle.

Côté risques sécurité, deux points méritent l'attention de tout ingénieur : la fuite de données d'entraînement (le modèle peut restituer des exemples sensibles) et la reproductibilité (versionner dataset, seeds et hyperparamètres, sous peine de résultats impossibles à rejouer).

Un fine-tuning réussi tient à 80 % au dataset. Quelques centaines d'exemples soigneusement écrits battent des milliers d'exemples bruités. Les points clés : des exemples cohérents avec le comportement visé, dédoublonnés, au bon format (instruction/réponse, ou paires de préférences), et équilibrés. Mieux vaut peu de données excellentes que beaucoup de données moyennes.

  • Fine-tuner au lieu de faire du RAG : le piège n°1. Pour des connaissances, RAG d'abord.
  • Pas d'évaluation : impossible de prouver le gain, ni de détecter une régression.
  • Dataset bruité ou minuscule : le modèle apprend vos erreurs ou n'apprend rien.
  • Oublier la quantification au service : un modèle fine-tuné se sert ensuite, idéalement quantifié pour tenir en mémoire.
  • Le fine-tuning change le comportement, pas les connaissances : pour les faits, RAG.
  • Ordre de décision : prompt → RAG → fine-tuning, du moins cher au plus cher.
  • LoRA/QLoRA rendent le fine-tuning accessible sur un seul GPU.
  • Le dataset fait le résultat ; l'évaluation avant/après n'est pas optionnelle.
  • Pensez coût total, fuite de données et reproductibilité.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracking. Un soutien, même symbolique, m'aide à couvrir l'hébergement et à garder ces ressources gratuites. Merci pour votre appui.

Le formulaire ne s'affiche pas ? Ouvrir Ko-fi dans un onglet.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn