Aller au contenu
Cloud high

IA et ML cloud : APIs pré-entraînées, AutoML, plateformes complètes

15 min de lecture

L’IA et le ML sont devenus en 2026 un domaine entier de l’offre cloud, qui mérite sa propre section certification (CDL Data & AI chez GCP). Le marché s’organise sur 3 niveaux d’abstraction : APIs pré-entraînées (vision, parole, traduction prêtes à consommer), AutoML (entraînement managé sur vos données), plateformes ML complètes (SageMaker, Vertex AI, Azure ML). À cela s’est ajouté en 2024–2026 une vague LLM managés (Bedrock, Azure OpenAI, Vertex AI Gemini) qui transforme la consommation IA. Cette page pose les concepts, identifie les services par fournisseur, expose les enjeux de souveraineté spécifiques à l’IA (où vivent vos prompts, qui voit vos données d’entraînement), et défend une opinion : pour 80 % des cas, les APIs pré-entraînées suffisent — fine-tuner un modèle est rarement justifié.

  • Les 3 niveaux d’abstraction IA/ML cloud
  • Les APIs pré-entraînées par fournisseur (vision, parole, langage)
  • L’AutoML : entraîner sans expertise data scientist
  • Les plateformes ML : SageMaker, Azure ML, Vertex AI
  • L’explosion LLM managés 2024-2026 et ses enjeux de souveraineté
  • La structure de coût IA/ML et ses pièges

Prérequis : avoir compris la grille XaaS et les enjeux de souveraineté. Si besoin, lisez d’abord IaaS, PaaS, SaaS, FaaS, CaaS et Souveraineté technologique de la stack.

Niveau 1 — APIs pré-entraînées (le plus haut)

Section intitulée « Niveau 1 — APIs pré-entraînées (le plus haut) »

Vous appelez une API REST ou gRPC, le fournisseur a déjà entraîné un modèle pour la tâche, vous payez par requête. Aucune expertise ML requise — c’est de la consommation pure.

Exemples concrets :

  • Détecter les objets dans une image → AWS Rekognition, Azure Computer Vision, GCP Vision AI.
  • Convertir parole en texte → AWS Transcribe, Azure Speech, GCP Speech-to-Text.
  • Traduire un texte → AWS Translate, Azure Translator, GCP Translation.
  • Analyser le sentiment d’un commentaire → AWS Comprehend, Azure Text Analytics, GCP Natural Language.

Avantages :

  • Aucune compétence ML requise — un développeur backend l’utilise comme n’importe quelle API.
  • Time-to-value très rapide : prototype fonctionnel en quelques heures.
  • Pas d’infrastructure à gérer.
  • Modèles maintenus par le fournisseur (mises à jour transparentes).

Inconvénients :

  • Pas de personnalisation sur vos données spécifiques (sauf cas limités via fine-tuning).
  • Lock-in fournisseur — chaque API a son format propriétaire.
  • Coût par requête qui peut exploser à grande échelle.
  • Données envoyées au fournisseur — enjeu de confidentialité.

Vous fournissez vos données (images étiquetées, textes labellisés), le service entraîne automatiquement un modèle adapté à votre cas, vous obtenez un endpoint d’inférence. Pas besoin de coder l’entraînement vous-même.

Exemples concrets :

  • Classifier des images de défauts produits spécifiques à votre métier → AWS Rekognition Custom Labels, GCP Vertex AI AutoML Vision, Azure Custom Vision.
  • Extraire des entités nommées spécifiques à votre domaine (médical, juridique) → AWS Comprehend Custom Entities, GCP AutoML Natural Language.
  • Prédire des séries temporelles métier (demande, stock) → AWS Forecast, GCP AutoML Tables, Azure ML Designer.

Avantages :

  • Personnalisation sur vos données sans expertise data science profonde.
  • Time-to-value modéré : quelques jours à quelques semaines.
  • Hyperparameter tuning automatique.

Inconvénients :

  • Coût d’entraînement non négligeable (plusieurs centaines à milliers d’euros par session).
  • Performance parfois limitée vs un modèle custom optimisé.
  • Lock-in plus fort que les APIs pré-entraînées (le modèle vit chez le fournisseur).

Niveau 3 — Plateformes ML complètes (le plus bas)

Section intitulée « Niveau 3 — Plateformes ML complètes (le plus bas) »

Vous accédez à une plateforme complète qui gère le cycle de vie ML : préparation des données, entraînement (vos algos custom), évaluation, déploiement, monitoring, retraining. Vous écrivez le code Python qui implémente l’algorithme.

Plateformes 2026 :

PlateformeFournisseurSpécificité
AWS SageMakerAWSLe plus mature, écosystème massif, intégration AWS profonde
Azure Machine LearningAzureBonne intégration Microsoft, MLflow inclus
Vertex AIGCPTrès bon sur les LLM, BigQuery ML inclus
Databricksmulti-cloudPlateforme unifiée data + ML, leader analytics
Hugging Face Inference EndpointsHugging FaceExcellent pour LLM open source, multi-cloud

Avantages :

  • Contrôle total sur les algorithmes et les hyperparamètres.
  • Modèles custom parfaitement optimisés pour vos cas.
  • Pipelines de retraining automatisables.

Inconvénients :

  • Compétences ML requises (data scientists, ML engineers).
  • Coût d’infrastructure élevé (instances GPU, stockage data).
  • Time-to-value long : semaines à mois.
  • Maintenance continue du modèle dans le temps.
CritèreAPI pré-entraînéeAutoMLPlateforme complète
CompétencesDev backend standardCitizen data scientistData scientist + ML engineer
Time-to-valueHeuresJours-semainesSemaines-mois
Coût initialTrès faibleModéréÉlevé
Coût récurrentPar requêteInférence + retrainingInfrastructure + équipe
PersonnalisationAucuneSur vos donnéesTotale
Cas d’usageCas standards (vision, parole, texte)Cas spécifiques avec données labelliséesR&D, modèles uniques

L’arrivée de GPT-4 d’OpenAI (mars 2023) a déclenché une vague de services LLM managés cloud. En 2024-2026, l’offre s’est structurée.

ServiceFournisseurModèles disponibles
AWS BedrockAWSClaude (Anthropic), Llama (Meta), Mistral, AI21, Cohere, Stable Diffusion
Azure OpenAI ServiceMicrosoftGPT-4, GPT-4o, DALL-E, Whisper, embeddings OpenAI
Vertex AIGCPGemini (1.5, 2.0), PaLM, Llama, Claude, modèles open source
Hugging Face InferenceHugging FaceCatalogue ouvert massif (40 000+ modèles)

Mode 1 — API consumer : vous appelez l’API du LLM, vous envoyez un prompt, vous recevez une réponse. Modèle entraîné par le fournisseur, vos données envoyées au fournisseur. C’est le mode dominant en 2026 (~80 % des usages).

Mode 2 — Fine-tuning : vous fournissez vos données spécifiques, le fournisseur fine-tune un modèle existant pour votre cas. Plus performant sur votre domaine, mais coût d’entraînement non négligeable. Mode émergent (~15 %).

Mode 3 — Self-hosting : vous déployez un LLM open source (Llama, Mistral) sur votre propre infrastructure GPU cloud. Contrôle maximal, coût matériel élevé. Mode niche (~5 %, mais en croissance).

FamilleActeurSpécificité
GPT-4 / GPT-4o / GPT-5OpenAI (via Azure)Référence générale, multi-modal, fonction calling
Claude 3.5 Sonnet / OpusAnthropic (via AWS Bedrock)Excellent en raisonnement, fenêtre de contexte large
Gemini 2.0Google (via Vertex AI)Multi-modal natif, intégration Google services
Llama 3.x / 4Meta (open source)Open weights, self-hosting possible
Mistral Large / CodestralMistral AI (français)Performances proches GPT-4, hébergeable en Europe

L’IA introduit de nouveaux enjeux de souveraineté distincts du cloud classique. Quatre questions structurantes.

Quand vous appelez l’API GPT-4 d’Azure, votre prompt transite par Azure. Le fournisseur peut techniquement le lire, le logger, l’utiliser pour entraîner ses modèles futurs (sauf opt-out explicite).

Implications RGPD : envoyer des données personnelles dans un LLM cloud peut violer le RGPD si le traitement n’est pas explicitement encadré. Plusieurs CNIL européennes ont prononcé des décisions en 2024–2025 contre ChatGPT pour traitement non conforme.

Mitigation :

  • Anonymisation des données avant envoi.
  • Contrats encadrants (Data Processing Agreement avec le fournisseur).
  • Self-hosting d’un modèle open source si données vraiment sensibles.

Question 2 — Où sont entraînés les modèles ?

Section intitulée « Question 2 — Où sont entraînés les modèles ? »

Les LLM commerciaux sont entraînés sur du contenu public scrapé (Common Crawl, Wikipedia, StackOverflow) plus parfois des données sous licence. Cette base d’entraînement est massivement américaine ou anglo-saxonne, ce qui biaise les modèles culturellement.

Implications : un modèle peut produire des réponses biaisées vers les normes américaines (juridique, médical, social). Pour des cas métier français, fine-tuning ou modèles européens (Mistral) peuvent être préférables.

Les LLM dominants sont opérés par des entreprises américaines (OpenAI, Anthropic, Google, Meta) — soumises au CLOUD Act et aux Executive Orders américains. Cette dimension juridique est traitée dans Souveraineté technologique de la stack.

Acteurs européens du marché LLM en 2026 :

  • Mistral AI : entreprise française qui publie des modèles open weights et propose une API commerciale.
  • Hugging Face : plateforme française qui héberge un catalogue de modèles open source et propose des Inference Endpoints déployables sur différentes infrastructures.
  • Modèles open source (Llama, Mistral, etc.) : peuvent être self-hosted sur n’importe quelle infrastructure cloud disposant de GPUs adaptés, y compris les fournisseurs souverains européens.

Les LLM se facturent par token (unité de texte traité). Un token = ~4 caractères en anglais, ~3 en français. Tarifs typiques 2026 :

ModèleCoût input (1M tokens)Coût output (1M tokens)
GPT-4o2,50 €10 €
Claude 3.5 Sonnet3 €15 €
Gemini 2.0 Flash0,15 €0,60 €
Mistral Large2 €6 €
Llama 3.x self-hostedCoût matériel GPUCoût matériel GPU

Piège classique : une application qui envoie des prompts longs (10 000 tokens) à 1 million d’utilisateurs par mois consomme 10 milliards de tokens = 25 000 € à 30 000 € par mois rien qu’en input. À grande échelle, le coût LLM peut dépasser le coût compute classique.

Mitigation :

  • Cache des réponses fréquentes (semantic caching).
  • Compression des prompts (suppression contexte inutile).
  • Modèles plus petits pour cas simples (Gemini Flash, GPT-4o-mini).
  • Bascule vers self-hosting au-delà d’un seuil de volume.

Le pattern RAG est devenu dominant en 2024-2026 pour ancrer les LLM sur des données spécifiques sans fine-tuning.

Fonctionnement :

  1. Indexer vos documents internes dans une base vectorielle (embeddings) : Pinecone, Weaviate, Qdrant, pgvector, Azure AI Search, AWS OpenSearch.
  2. Pour chaque question utilisateur, rechercher les documents pertinents dans la base vectorielle.
  3. Inclure ces documents dans le prompt envoyé au LLM, qui répond en se basant sur eux.

Avantages vs fine-tuning : pas de coût d’entraînement, mise à jour des données instantanée, traçabilité (le LLM cite ses sources).

Les LLM modernes supportent le function calling : le LLM décide d’appeler des fonctions externes (API métier, base de données) pour répondre à une demande complexe. Pattern central pour les agents IA qui automatisent des tâches.

Exemples : agent comptable qui consulte ERP + génère écritures + envoie email, agent support qui interroge knowledge base + crée ticket.

Pour des cas où le RAG ne suffit pas (style spécifique, classification fine, langue rare), un fine-tuning sur quelques milliers d’exemples peut améliorer significativement les performances. Disponible chez OpenAI, Anthropic, Mistral.

Trois bonnes pratiques structurantes pour aborder l’IA cloud sans sur-ingénierie.

Pratique 1 — Commencer par les APIs pré-entraînées avant fine-tuning. La majorité des cas d’usage IA en entreprise (vision, parole, NLP, LLM standards) sont résolus par les APIs pré-entraînées disponibles chez les fournisseurs cloud. Le fine-tuning d’un modèle ajoute coût et complexité — ne le considérer que si la qualité observée d’une API standard est insuffisante, mesurée sur des cas réels et non supposée.

Pratique 2 — Privilégier RAG plutôt que fine-tuning pour ancrer un modèle sur vos données. Quand l’objectif est de répondre sur vos documents internes ou votre base de connaissances, le pattern RAG (avec une base vectorielle) est généralement plus efficace que le fine-tuning : mise à jour instantanée des données, traçabilité par citation, coût d’infrastructure modéré. Le fine-tuning reste justifié pour le style (générer dans un ton spécifique) ou la classification sur taxonomies très particulières.

Pratique 3 — Évaluer la dimension RGPD avant d’envoyer des données dans un LLM. Les prompts contenant des données personnelles peuvent constituer un transfert de données au sens du RGPD. Avant de déployer un usage LLM en entreprise, vérifier le contrat de traitement (Data Processing Agreement), la juridiction du fournisseur, et les options d’opt-out d’entraînement sur vos données. Pour les cas où la confidentialité est critique, le self-hosting d’un modèle open source ou l’utilisation d’un fournisseur sous juridiction européenne sont des options à étudier.

  • 3 niveaux d’abstraction IA/ML cloud : APIs pré-entraînées (consommation), AutoML (entraînement managé), plateformes complètes (contrôle total).
  • APIs pré-entraînées suffisent à 80 % des cas — vision, parole, langage, traduction, sentiment.
  • LLM managés (Bedrock, Azure OpenAI, Vertex AI) ont explosé en 2024-2026 — modèles dominants : GPT-4, Claude, Gemini, Llama, Mistral.
  • Souveraineté IA : où vivent vos prompts (CLOUD Act), où sont entraînés les modèles (biais culturel), souveraineté du fournisseur (alternatives Mistral, Hugging Face européen).
  • Coût LLM : par token, peut exploser à grande échelle. Mitigations : cache sémantique, modèles plus petits, self-hosting au-delà d’un seuil.
  • Pattern RAG est dominant 2026 pour ancrer LLM sur vos données — bat fine-tuning dans 90 % des cas.
  • Mon défaut 2026 : APIs pré-entraînées d’abord, RAG si données spécifiques, fine-tuning seulement après échec mesuré, souveraineté étudiée pour cas sensibles.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracing. Aujourd'hui, ce site ne couvre même pas mes frais d'hébergement, d'électricité, de matériel, de logiciels, mais surtout de cafés.

Un soutien régulier, même symbolique, m'aide à garder ces ressources gratuites et à continuer de produire des guides de qualité. Merci pour votre appui.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn