IA et ML cloud : APIs pré-entraînées, AutoML, plateformes complètes

L'IA et le ML sont devenus en 2026 un domaine entier de l'offre cloud, qui mérite sa propre section certification (CDL Data & AI chez GCP). Le marché s'organise sur 3 niveaux d'abstraction : APIs pré-entraînées (vision, parole, traduction prêtes à consommer), AutoML (entraînement managé sur vos données), plateformes ML complètes (SageMaker, Vertex AI, Azure ML). À cela s'est ajouté en 2024–2026 une vague LLM managés (Bedrock, Azure OpenAI, Vertex AI Gemini) qui transforme la consommation IA. Cette page pose les concepts, identifie les services par fournisseur, expose les enjeux de souveraineté spécifiques à l'IA (où vivent vos prompts, qui voit vos données d'entraînement), et défend une opinion : pour 80 % des cas, les APIs pré-entraînées suffisent — fine-tuner un modèle est rarement justifié.

Ce que vous allez apprendre

Les 3 niveaux d'abstraction IA/ML cloud
Les APIs pré-entraînées par fournisseur (vision, parole, langage)
L'AutoML : entraîner sans expertise data scientist
Les plateformes ML : SageMaker, Azure ML, Vertex AI
L'explosion LLM managés 2024-2026 et ses enjeux de souveraineté
La structure de coût IA/ML et ses pièges

Prérequis : avoir compris la grille XaaS et les enjeux de souveraineté. Si besoin, lisez d'abord IaaS, PaaS, SaaS, FaaS, CaaS et Souveraineté technologique de la stack.

1. Les 3 niveaux d'abstraction IA/ML cloud

Niveau 1 — APIs pré-entraînées (le plus haut)

Vous appelez une API REST ou gRPC, le fournisseur a déjà entraîné un modèle pour la tâche, vous payez par requête. Aucune expertise ML requise — c'est de la consommation pure.

Exemples concrets :

Détecter les objets dans une image → AWS Rekognition, Azure Computer Vision, GCP Vision AI.
Convertir parole en texte → AWS Transcribe, Azure Speech, GCP Speech-to-Text.
Traduire un texte → AWS Translate, Azure Translator, GCP Translation.
Analyser le sentiment d'un commentaire → AWS Comprehend, Azure Text Analytics, GCP Natural Language.

Avantages :

Aucune compétence ML requise — un développeur backend l'utilise comme n'importe quelle API.
Time-to-value très rapide : prototype fonctionnel en quelques heures.
Pas d'infrastructure à gérer.
Modèles maintenus par le fournisseur (mises à jour transparentes).

Inconvénients :

Pas de personnalisation sur vos données spécifiques (sauf cas limités via fine-tuning).
Lock-in fournisseur — chaque API a son format propriétaire.
Coût par requête qui peut exploser à grande échelle.
Données envoyées au fournisseur — enjeu de confidentialité.

Niveau 2 — AutoML (intermédiaire)

Vous fournissez vos données (images étiquetées, textes labellisés), le service entraîne automatiquement un modèle adapté à votre cas, vous obtenez un endpoint d'inférence. Pas besoin de coder l'entraînement vous-même.

Exemples concrets :

Classifier des images de défauts produits spécifiques à votre métier → AWS Rekognition Custom Labels, GCP Vertex AI AutoML Vision, Azure Custom Vision.
Extraire des entités nommées spécifiques à votre domaine (médical, juridique) → AWS Comprehend Custom Entities, GCP AutoML Natural Language.
Prédire des séries temporelles métier (demande, stock) → AWS Forecast, GCP AutoML Tables, Azure ML Designer.

Avantages :

Personnalisation sur vos données sans expertise data science profonde.
Time-to-value modéré : quelques jours à quelques semaines.
Hyperparameter tuning automatique.

Inconvénients :

Coût d'entraînement non négligeable (plusieurs centaines à milliers d'euros par session).
Performance parfois limitée vs un modèle custom optimisé.
Lock-in plus fort que les APIs pré-entraînées (le modèle vit chez le fournisseur).

Niveau 3 — Plateformes ML complètes (le plus bas)

Vous accédez à une plateforme complète qui gère le cycle de vie ML : préparation des données, entraînement (vos algos custom), évaluation, déploiement, monitoring, retraining. Vous écrivez le code Python qui implémente l'algorithme.

Plateformes 2026 :

Plateforme	Fournisseur	Spécificité
AWS SageMaker	AWS	Le plus mature, écosystème massif, intégration AWS profonde
Azure Machine Learning	Azure	Bonne intégration Microsoft, MLflow inclus
Vertex AI	GCP	Très bon sur les LLM, BigQuery ML inclus
Databricks	multi-cloud	Plateforme unifiée data + ML, leader analytics
Hugging Face Inference Endpoints	Hugging Face	Excellent pour LLM open source, multi-cloud

Avantages :

Contrôle total sur les algorithmes et les hyperparamètres.
Modèles custom parfaitement optimisés pour vos cas.
Pipelines de retraining automatisables.

Inconvénients :

Compétences ML requises (data scientists, ML engineers).
Coût d'infrastructure élevé (instances GPU, stockage data).
Time-to-value long : semaines à mois.
Maintenance continue du modèle dans le temps.

Tableau de décision

Critère	API pré-entraînée	AutoML	Plateforme complète
Compétences	Dev backend standard	Citizen data scientist	Data scientist + ML engineer
Time-to-value	Heures	Jours-semaines	Semaines-mois
Coût initial	Très faible	Modéré	Élevé
Coût récurrent	Par requête	Inférence + retraining	Infrastructure + équipe
Personnalisation	Aucune	Sur vos données	Totale
Cas d'usage	Cas standards (vision, parole, texte)	Cas spécifiques avec données labellisées	R&D, modèles uniques

2. L'explosion LLM managés 2024-2026

Le tournant de 2023

L'arrivée de GPT-4 d'OpenAI (mars 2023) a déclenché une vague de services LLM managés cloud. En 2024-2026, l'offre s'est structurée.

Service	Fournisseur	Modèles disponibles
AWS Bedrock	AWS	Claude (Anthropic), Llama (Meta), Mistral, AI21, Cohere, Stable Diffusion
Azure OpenAI Service	Microsoft	GPT-4, GPT-4o, DALL-E, Whisper, embeddings OpenAI
Vertex AI	GCP	Gemini (1.5, 2.0), PaLM, Llama, Claude, modèles open source
Hugging Face Inference	Hugging Face	Catalogue ouvert massif (40 000+ modèles)

Les modes de consommation

Mode 1 — API consumer : vous appelez l'API du LLM, vous envoyez un prompt, vous recevez une réponse. Modèle entraîné par le fournisseur, vos données envoyées au fournisseur. C'est le mode dominant en 2026 (~80 % des usages).

Mode 2 — Fine-tuning : vous fournissez vos données spécifiques, le fournisseur fine-tune un modèle existant pour votre cas. Plus performant sur votre domaine, mais coût d'entraînement non négligeable. Mode émergent (~15 %).

Mode 3 — Self-hosting : vous déployez un LLM open source (Llama, Mistral) sur votre propre infrastructure GPU cloud. Contrôle maximal, coût matériel élevé. Mode niche (~5 %, mais en croissance).

Les modèles 2026 dominants

Famille	Acteur	Spécificité
GPT-4 / GPT-4o / GPT-5	OpenAI (via Azure)	Référence générale, multi-modal, fonction calling
Claude 3.5 Sonnet / Opus	Anthropic (via AWS Bedrock)	Excellent en raisonnement, fenêtre de contexte large
Gemini 2.0	Google (via Vertex AI)	Multi-modal natif, intégration Google services
Llama 3.x / 4	Meta (open source)	Open weights, self-hosting possible
Mistral Large / Codestral	Mistral AI (français)	Performances proches GPT-4, hébergeable en Europe

3. Enjeux de souveraineté IA

L'IA introduit de nouveaux enjeux de souveraineté distincts du cloud classique. Quatre questions structurantes.

Question 1 — Où vivent vos prompts ?

Quand vous appelez l'API GPT-4 d'Azure, votre prompt transite par Azure. Le fournisseur peut techniquement le lire, le logger, l'utiliser pour entraîner ses modèles futurs (sauf opt-out explicite).

Implications RGPD : envoyer des données personnelles dans un LLM cloud peut violer le RGPD si le traitement n'est pas explicitement encadré. Plusieurs CNIL européennes ont prononcé des décisions en 2024–2025 contre ChatGPT pour traitement non conforme.

Mitigation :

Anonymisation des données avant envoi.
Contrats encadrants (Data Processing Agreement avec le fournisseur).
Self-hosting d'un modèle open source si données vraiment sensibles.

Question 2 — Où sont entraînés les modèles ?

Les LLM commerciaux sont entraînés sur du contenu public scrapé (Common Crawl, Wikipedia, StackOverflow) plus parfois des données sous licence. Cette base d'entraînement est massivement américaine ou anglo-saxonne, ce qui biaise les modèles culturellement.

Implications : un modèle peut produire des réponses biaisées vers les normes américaines (juridique, médical, social). Pour des cas métier français, fine-tuning ou modèles européens (Mistral) peuvent être préférables.

Question 3 — Souveraineté du fournisseur

Les LLM dominants sont opérés par des entreprises américaines (OpenAI, Anthropic, Google, Meta) — soumises au CLOUD Act et aux Executive Orders américains. Cette dimension juridique est traitée dans Souveraineté technologique de la stack.

Acteurs européens du marché LLM en 2026 :

Mistral AI : entreprise française qui publie des modèles open weights et propose une API commerciale.
Hugging Face : plateforme française qui héberge un catalogue de modèles open source et propose des Inference Endpoints déployables sur différentes infrastructures.
Modèles open source (Llama, Mistral, etc.) : peuvent être self-hosted sur n'importe quelle infrastructure cloud disposant de GPUs adaptés, y compris les fournisseurs souverains européens.

Question 4 — Coût et explosion

Les LLM se facturent par token (unité de texte traité). Un token = ~4 caractères en anglais, ~3 en français. Tarifs typiques 2026 :

Modèle	Coût input (1M tokens)	Coût output (1M tokens)
GPT-4o	2,50 €	10 €
Claude 3.5 Sonnet	3 €	15 €
Gemini 2.0 Flash	0,15 €	0,60 €
Mistral Large	2 €	6 €
Llama 3.x self-hosted	Coût matériel GPU	Coût matériel GPU

Piège classique : une application qui envoie des prompts longs (10 000 tokens) à 1 million d'utilisateurs par mois consomme 10 milliards de tokens = 25 000 € à 30 000 € par mois rien qu'en input. À grande échelle, le coût LLM peut dépasser le coût compute classique.

Mitigation :

Cache des réponses fréquentes (semantic caching).
Compression des prompts (suppression contexte inutile).
Modèles plus petits pour cas simples (Gemini Flash, GPT-4o-mini).
Bascule vers self-hosting au-delà d'un seuil de volume.

4. Architecture IA cloud — patterns émergents

Pattern RAG (Retrieval-Augmented Generation)

Le pattern RAG est devenu dominant en 2024-2026 pour ancrer les LLM sur des données spécifiques sans fine-tuning.

Fonctionnement :

Indexer vos documents internes dans une base vectorielle (embeddings) : Pinecone, Weaviate, Qdrant, pgvector, Azure AI Search, AWS OpenSearch.
Pour chaque question utilisateur, rechercher les documents pertinents dans la base vectorielle.
Inclure ces documents dans le prompt envoyé au LLM, qui répond en se basant sur eux.

Avantages vs fine-tuning : pas de coût d'entraînement, mise à jour des données instantanée, traçabilité (le LLM cite ses sources).

Pattern Agent / Function Calling

Les LLM modernes supportent le function calling : le LLM décide d'appeler des fonctions externes (API métier, base de données) pour répondre à une demande complexe. Pattern central pour les agents IA qui automatisent des tâches.

Exemples : agent comptable qui consulte ERP + génère écritures + envoie email, agent support qui interroge knowledge base + crée ticket.

Pattern Fine-tuning ciblé

Pour des cas où le RAG ne suffit pas (style spécifique, classification fine, langue rare), un fine-tuning sur quelques milliers d'exemples peut améliorer significativement les performances. Disponible chez OpenAI, Anthropic, Mistral.

5. Bonnes pratiques d'adoption IA cloud

Trois bonnes pratiques structurantes pour aborder l'IA cloud sans sur-ingénierie.

Pratique 1 — Commencer par les APIs pré-entraînées avant fine-tuning. La majorité des cas d'usage IA en entreprise (vision, parole, NLP, LLM standards) sont résolus par les APIs pré-entraînées disponibles chez les fournisseurs cloud. Le fine-tuning d'un modèle ajoute coût et complexité — ne le considérer que si la qualité observée d'une API standard est insuffisante, mesurée sur des cas réels et non supposée.

Pratique 2 — Privilégier RAG plutôt que fine-tuning pour ancrer un modèle sur vos données. Quand l'objectif est de répondre sur vos documents internes ou votre base de connaissances, le pattern RAG (avec une base vectorielle) est généralement plus efficace que le fine-tuning : mise à jour instantanée des données, traçabilité par citation, coût d'infrastructure modéré. Le fine-tuning reste justifié pour le style (générer dans un ton spécifique) ou la classification sur taxonomies très particulières.

Pratique 3 — Évaluer la dimension RGPD avant d'envoyer des données dans un LLM. Les prompts contenant des données personnelles peuvent constituer un transfert de données au sens du RGPD. Avant de déployer un usage LLM en entreprise, vérifier le contrat de traitement (Data Processing Agreement), la juridiction du fournisseur, et les options d'opt-out d'entraînement sur vos données. Pour les cas où la confidentialité est critique, le self-hosting d'un modèle open source ou l'utilisation d'un fournisseur sous juridiction européenne sont des options à étudier.

À retenir

3 niveaux d'abstraction IA/ML cloud : APIs pré-entraînées (consommation), AutoML (entraînement managé), plateformes complètes (contrôle total).
APIs pré-entraînées suffisent à 80 % des cas — vision, parole, langage, traduction, sentiment.
LLM managés (Bedrock, Azure OpenAI, Vertex AI) ont explosé en 2024-2026 — modèles dominants : GPT-4, Claude, Gemini, Llama, Mistral.
Souveraineté IA : où vivent vos prompts (CLOUD Act), où sont entraînés les modèles (biais culturel), souveraineté du fournisseur (alternatives Mistral, Hugging Face européen).
Coût LLM : par token, peut exploser à grande échelle. Mitigations : cache sémantique, modèles plus petits, self-hosting au-delà d'un seuil.
Pattern RAG est dominant 2026 pour ancrer LLM sur vos données — bat fine-tuning dans 90 % des cas.
Mon défaut 2026 : APIs pré-entraînées d'abord, RAG si données spécifiques, fine-tuning seulement après échec mesuré, souveraineté étudiée pour cas sensibles.

Prochaines étapes

Souveraineté technologique de la stack L'enjeu critique de la souveraineté pour les données envoyées aux LLM.

IaaS, PaaS, SaaS, FaaS, CaaS L'IA cloud comme nouvelle famille XaaS (AIaaS, MLaaS).

Pay-as-you-go : modèles tarifaires La facturation par token des LLM, axe particulier des modèles tarifaires.

Edge computing fondamentaux L'IA en edge : émergence des modèles compacts pour le mobile et l'IoT.