L’IA et le ML sont devenus en 2026 un domaine entier de l’offre cloud, qui mérite sa propre section certification (CDL Data & AI chez GCP). Le marché s’organise sur 3 niveaux d’abstraction : APIs pré-entraînées (vision, parole, traduction prêtes à consommer), AutoML (entraînement managé sur vos données), plateformes ML complètes (SageMaker, Vertex AI, Azure ML). À cela s’est ajouté en 2024–2026 une vague LLM managés (Bedrock, Azure OpenAI, Vertex AI Gemini) qui transforme la consommation IA. Cette page pose les concepts, identifie les services par fournisseur, expose les enjeux de souveraineté spécifiques à l’IA (où vivent vos prompts, qui voit vos données d’entraînement), et défend une opinion : pour 80 % des cas, les APIs pré-entraînées suffisent — fine-tuner un modèle est rarement justifié.
Ce que vous allez apprendre
Section intitulée « Ce que vous allez apprendre »- Les 3 niveaux d’abstraction IA/ML cloud
- Les APIs pré-entraînées par fournisseur (vision, parole, langage)
- L’AutoML : entraîner sans expertise data scientist
- Les plateformes ML : SageMaker, Azure ML, Vertex AI
- L’explosion LLM managés 2024-2026 et ses enjeux de souveraineté
- La structure de coût IA/ML et ses pièges
Prérequis : avoir compris la grille XaaS et les enjeux de souveraineté. Si besoin, lisez d’abord IaaS, PaaS, SaaS, FaaS, CaaS et Souveraineté technologique de la stack.
1. Les 3 niveaux d’abstraction IA/ML cloud
Section intitulée « 1. Les 3 niveaux d’abstraction IA/ML cloud »Niveau 1 — APIs pré-entraînées (le plus haut)
Section intitulée « Niveau 1 — APIs pré-entraînées (le plus haut) »Vous appelez une API REST ou gRPC, le fournisseur a déjà entraîné un modèle pour la tâche, vous payez par requête. Aucune expertise ML requise — c’est de la consommation pure.
Exemples concrets :
- Détecter les objets dans une image → AWS Rekognition, Azure Computer Vision, GCP Vision AI.
- Convertir parole en texte → AWS Transcribe, Azure Speech, GCP Speech-to-Text.
- Traduire un texte → AWS Translate, Azure Translator, GCP Translation.
- Analyser le sentiment d’un commentaire → AWS Comprehend, Azure Text Analytics, GCP Natural Language.
Avantages :
- Aucune compétence ML requise — un développeur backend l’utilise comme n’importe quelle API.
- Time-to-value très rapide : prototype fonctionnel en quelques heures.
- Pas d’infrastructure à gérer.
- Modèles maintenus par le fournisseur (mises à jour transparentes).
Inconvénients :
- Pas de personnalisation sur vos données spécifiques (sauf cas limités via fine-tuning).
- Lock-in fournisseur — chaque API a son format propriétaire.
- Coût par requête qui peut exploser à grande échelle.
- Données envoyées au fournisseur — enjeu de confidentialité.
Niveau 2 — AutoML (intermédiaire)
Section intitulée « Niveau 2 — AutoML (intermédiaire) »Vous fournissez vos données (images étiquetées, textes labellisés), le service entraîne automatiquement un modèle adapté à votre cas, vous obtenez un endpoint d’inférence. Pas besoin de coder l’entraînement vous-même.
Exemples concrets :
- Classifier des images de défauts produits spécifiques à votre métier → AWS Rekognition Custom Labels, GCP Vertex AI AutoML Vision, Azure Custom Vision.
- Extraire des entités nommées spécifiques à votre domaine (médical, juridique) → AWS Comprehend Custom Entities, GCP AutoML Natural Language.
- Prédire des séries temporelles métier (demande, stock) → AWS Forecast, GCP AutoML Tables, Azure ML Designer.
Avantages :
- Personnalisation sur vos données sans expertise data science profonde.
- Time-to-value modéré : quelques jours à quelques semaines.
- Hyperparameter tuning automatique.
Inconvénients :
- Coût d’entraînement non négligeable (plusieurs centaines à milliers d’euros par session).
- Performance parfois limitée vs un modèle custom optimisé.
- Lock-in plus fort que les APIs pré-entraînées (le modèle vit chez le fournisseur).
Niveau 3 — Plateformes ML complètes (le plus bas)
Section intitulée « Niveau 3 — Plateformes ML complètes (le plus bas) »Vous accédez à une plateforme complète qui gère le cycle de vie ML : préparation des données, entraînement (vos algos custom), évaluation, déploiement, monitoring, retraining. Vous écrivez le code Python qui implémente l’algorithme.
Plateformes 2026 :
| Plateforme | Fournisseur | Spécificité |
|---|---|---|
| AWS SageMaker | AWS | Le plus mature, écosystème massif, intégration AWS profonde |
| Azure Machine Learning | Azure | Bonne intégration Microsoft, MLflow inclus |
| Vertex AI | GCP | Très bon sur les LLM, BigQuery ML inclus |
| Databricks | multi-cloud | Plateforme unifiée data + ML, leader analytics |
| Hugging Face Inference Endpoints | Hugging Face | Excellent pour LLM open source, multi-cloud |
Avantages :
- Contrôle total sur les algorithmes et les hyperparamètres.
- Modèles custom parfaitement optimisés pour vos cas.
- Pipelines de retraining automatisables.
Inconvénients :
- Compétences ML requises (data scientists, ML engineers).
- Coût d’infrastructure élevé (instances GPU, stockage data).
- Time-to-value long : semaines à mois.
- Maintenance continue du modèle dans le temps.
Tableau de décision
Section intitulée « Tableau de décision »| Critère | API pré-entraînée | AutoML | Plateforme complète |
|---|---|---|---|
| Compétences | Dev backend standard | Citizen data scientist | Data scientist + ML engineer |
| Time-to-value | Heures | Jours-semaines | Semaines-mois |
| Coût initial | Très faible | Modéré | Élevé |
| Coût récurrent | Par requête | Inférence + retraining | Infrastructure + équipe |
| Personnalisation | Aucune | Sur vos données | Totale |
| Cas d’usage | Cas standards (vision, parole, texte) | Cas spécifiques avec données labellisées | R&D, modèles uniques |
2. L’explosion LLM managés 2024-2026
Section intitulée « 2. L’explosion LLM managés 2024-2026 »Le tournant de 2023
Section intitulée « Le tournant de 2023 »L’arrivée de GPT-4 d’OpenAI (mars 2023) a déclenché une vague de services LLM managés cloud. En 2024-2026, l’offre s’est structurée.
| Service | Fournisseur | Modèles disponibles |
|---|---|---|
| AWS Bedrock | AWS | Claude (Anthropic), Llama (Meta), Mistral, AI21, Cohere, Stable Diffusion |
| Azure OpenAI Service | Microsoft | GPT-4, GPT-4o, DALL-E, Whisper, embeddings OpenAI |
| Vertex AI | GCP | Gemini (1.5, 2.0), PaLM, Llama, Claude, modèles open source |
| Hugging Face Inference | Hugging Face | Catalogue ouvert massif (40 000+ modèles) |
Les modes de consommation
Section intitulée « Les modes de consommation »Mode 1 — API consumer : vous appelez l’API du LLM, vous envoyez un prompt, vous recevez une réponse. Modèle entraîné par le fournisseur, vos données envoyées au fournisseur. C’est le mode dominant en 2026 (~80 % des usages).
Mode 2 — Fine-tuning : vous fournissez vos données spécifiques, le fournisseur fine-tune un modèle existant pour votre cas. Plus performant sur votre domaine, mais coût d’entraînement non négligeable. Mode émergent (~15 %).
Mode 3 — Self-hosting : vous déployez un LLM open source (Llama, Mistral) sur votre propre infrastructure GPU cloud. Contrôle maximal, coût matériel élevé. Mode niche (~5 %, mais en croissance).
Les modèles 2026 dominants
Section intitulée « Les modèles 2026 dominants »| Famille | Acteur | Spécificité |
|---|---|---|
| GPT-4 / GPT-4o / GPT-5 | OpenAI (via Azure) | Référence générale, multi-modal, fonction calling |
| Claude 3.5 Sonnet / Opus | Anthropic (via AWS Bedrock) | Excellent en raisonnement, fenêtre de contexte large |
| Gemini 2.0 | Google (via Vertex AI) | Multi-modal natif, intégration Google services |
| Llama 3.x / 4 | Meta (open source) | Open weights, self-hosting possible |
| Mistral Large / Codestral | Mistral AI (français) | Performances proches GPT-4, hébergeable en Europe |
3. Enjeux de souveraineté IA
Section intitulée « 3. Enjeux de souveraineté IA »L’IA introduit de nouveaux enjeux de souveraineté distincts du cloud classique. Quatre questions structurantes.
Question 1 — Où vivent vos prompts ?
Section intitulée « Question 1 — Où vivent vos prompts ? »Quand vous appelez l’API GPT-4 d’Azure, votre prompt transite par Azure. Le fournisseur peut techniquement le lire, le logger, l’utiliser pour entraîner ses modèles futurs (sauf opt-out explicite).
Implications RGPD : envoyer des données personnelles dans un LLM cloud peut violer le RGPD si le traitement n’est pas explicitement encadré. Plusieurs CNIL européennes ont prononcé des décisions en 2024–2025 contre ChatGPT pour traitement non conforme.
Mitigation :
- Anonymisation des données avant envoi.
- Contrats encadrants (Data Processing Agreement avec le fournisseur).
- Self-hosting d’un modèle open source si données vraiment sensibles.
Question 2 — Où sont entraînés les modèles ?
Section intitulée « Question 2 — Où sont entraînés les modèles ? »Les LLM commerciaux sont entraînés sur du contenu public scrapé (Common Crawl, Wikipedia, StackOverflow) plus parfois des données sous licence. Cette base d’entraînement est massivement américaine ou anglo-saxonne, ce qui biaise les modèles culturellement.
Implications : un modèle peut produire des réponses biaisées vers les normes américaines (juridique, médical, social). Pour des cas métier français, fine-tuning ou modèles européens (Mistral) peuvent être préférables.
Question 3 — Souveraineté du fournisseur
Section intitulée « Question 3 — Souveraineté du fournisseur »Les LLM dominants sont opérés par des entreprises américaines (OpenAI, Anthropic, Google, Meta) — soumises au CLOUD Act et aux Executive Orders américains. Cette dimension juridique est traitée dans Souveraineté technologique de la stack.
Acteurs européens du marché LLM en 2026 :
- Mistral AI : entreprise française qui publie des modèles open weights et propose une API commerciale.
- Hugging Face : plateforme française qui héberge un catalogue de modèles open source et propose des Inference Endpoints déployables sur différentes infrastructures.
- Modèles open source (Llama, Mistral, etc.) : peuvent être self-hosted sur n’importe quelle infrastructure cloud disposant de GPUs adaptés, y compris les fournisseurs souverains européens.
Question 4 — Coût et explosion
Section intitulée « Question 4 — Coût et explosion »Les LLM se facturent par token (unité de texte traité). Un token = ~4 caractères en anglais, ~3 en français. Tarifs typiques 2026 :
| Modèle | Coût input (1M tokens) | Coût output (1M tokens) |
|---|---|---|
| GPT-4o | 2,50 € | 10 € |
| Claude 3.5 Sonnet | 3 € | 15 € |
| Gemini 2.0 Flash | 0,15 € | 0,60 € |
| Mistral Large | 2 € | 6 € |
| Llama 3.x self-hosted | Coût matériel GPU | Coût matériel GPU |
Piège classique : une application qui envoie des prompts longs (10 000 tokens) à 1 million d’utilisateurs par mois consomme 10 milliards de tokens = 25 000 € à 30 000 € par mois rien qu’en input. À grande échelle, le coût LLM peut dépasser le coût compute classique.
Mitigation :
- Cache des réponses fréquentes (semantic caching).
- Compression des prompts (suppression contexte inutile).
- Modèles plus petits pour cas simples (Gemini Flash, GPT-4o-mini).
- Bascule vers self-hosting au-delà d’un seuil de volume.
4. Architecture IA cloud — patterns émergents
Section intitulée « 4. Architecture IA cloud — patterns émergents »Pattern RAG (Retrieval-Augmented Generation)
Section intitulée « Pattern RAG (Retrieval-Augmented Generation) »Le pattern RAG est devenu dominant en 2024-2026 pour ancrer les LLM sur des données spécifiques sans fine-tuning.
Fonctionnement :
- Indexer vos documents internes dans une base vectorielle (embeddings) : Pinecone, Weaviate, Qdrant, pgvector, Azure AI Search, AWS OpenSearch.
- Pour chaque question utilisateur, rechercher les documents pertinents dans la base vectorielle.
- Inclure ces documents dans le prompt envoyé au LLM, qui répond en se basant sur eux.
Avantages vs fine-tuning : pas de coût d’entraînement, mise à jour des données instantanée, traçabilité (le LLM cite ses sources).
Pattern Agent / Function Calling
Section intitulée « Pattern Agent / Function Calling »Les LLM modernes supportent le function calling : le LLM décide d’appeler des fonctions externes (API métier, base de données) pour répondre à une demande complexe. Pattern central pour les agents IA qui automatisent des tâches.
Exemples : agent comptable qui consulte ERP + génère écritures + envoie email, agent support qui interroge knowledge base + crée ticket.
Pattern Fine-tuning ciblé
Section intitulée « Pattern Fine-tuning ciblé »Pour des cas où le RAG ne suffit pas (style spécifique, classification fine, langue rare), un fine-tuning sur quelques milliers d’exemples peut améliorer significativement les performances. Disponible chez OpenAI, Anthropic, Mistral.
5. Bonnes pratiques d’adoption IA cloud
Section intitulée « 5. Bonnes pratiques d’adoption IA cloud »Trois bonnes pratiques structurantes pour aborder l’IA cloud sans sur-ingénierie.
Pratique 1 — Commencer par les APIs pré-entraînées avant fine-tuning. La majorité des cas d’usage IA en entreprise (vision, parole, NLP, LLM standards) sont résolus par les APIs pré-entraînées disponibles chez les fournisseurs cloud. Le fine-tuning d’un modèle ajoute coût et complexité — ne le considérer que si la qualité observée d’une API standard est insuffisante, mesurée sur des cas réels et non supposée.
Pratique 2 — Privilégier RAG plutôt que fine-tuning pour ancrer un modèle sur vos données. Quand l’objectif est de répondre sur vos documents internes ou votre base de connaissances, le pattern RAG (avec une base vectorielle) est généralement plus efficace que le fine-tuning : mise à jour instantanée des données, traçabilité par citation, coût d’infrastructure modéré. Le fine-tuning reste justifié pour le style (générer dans un ton spécifique) ou la classification sur taxonomies très particulières.
Pratique 3 — Évaluer la dimension RGPD avant d’envoyer des données dans un LLM. Les prompts contenant des données personnelles peuvent constituer un transfert de données au sens du RGPD. Avant de déployer un usage LLM en entreprise, vérifier le contrat de traitement (Data Processing Agreement), la juridiction du fournisseur, et les options d’opt-out d’entraînement sur vos données. Pour les cas où la confidentialité est critique, le self-hosting d’un modèle open source ou l’utilisation d’un fournisseur sous juridiction européenne sont des options à étudier.
À retenir
Section intitulée « À retenir »- 3 niveaux d’abstraction IA/ML cloud : APIs pré-entraînées (consommation), AutoML (entraînement managé), plateformes complètes (contrôle total).
- APIs pré-entraînées suffisent à 80 % des cas — vision, parole, langage, traduction, sentiment.
- LLM managés (Bedrock, Azure OpenAI, Vertex AI) ont explosé en 2024-2026 — modèles dominants : GPT-4, Claude, Gemini, Llama, Mistral.
- Souveraineté IA : où vivent vos prompts (CLOUD Act), où sont entraînés les modèles (biais culturel), souveraineté du fournisseur (alternatives Mistral, Hugging Face européen).
- Coût LLM : par token, peut exploser à grande échelle. Mitigations : cache sémantique, modèles plus petits, self-hosting au-delà d’un seuil.
- Pattern RAG est dominant 2026 pour ancrer LLM sur vos données — bat fine-tuning dans 90 % des cas.
- Mon défaut 2026 : APIs pré-entraînées d’abord, RAG si données spécifiques, fine-tuning seulement après échec mesuré, souveraineté étudiée pour cas sensibles.