Observabilité

Cette section regroupe tout ce qu'il faut pour mettre en place une plateforme d'observabilité : concepts fondamentaux, formation pratique hands-on, et guides de bonnes pratiques.

L'observabilité dans la démarche DevOps et SRE

L'observabilité n'est pas un outil de plus à installer, c'est un pilier fondamental des pratiques DevOps et SRE modernes.

DevOps : accélérer les boucles de feedback

En DevOps, l'objectif est de réduire le temps entre une modification de code et son impact en production. L'observabilité rend ce cycle possible :

Déploiement continu : les métriques et traces permettent de valider automatiquement qu'un déploiement n'a pas dégradé les performances
Feature flags : les logs et métriques mesurent l'adoption et les erreurs d'une nouvelle fonctionnalité
Rollback rapide : la corrélation des signaux détecte une régression en minutes, pas en heures

Sans observabilité, le « you build it, you run it » reste une promesse vide, les équipes ne peuvent pas assumer la responsabilité de ce qu'elles ne peuvent pas voir.

SRE : mesurer et garantir la fiabilité

Le Site Reliability Engineering repose sur des objectifs mesurables. L'observabilité fournit les données pour :

Concept SRE	Rôle de l'observabilité
SLI (Service Level Indicator)	Métriques qui quantifient la qualité perçue par les utilisateurs
SLO (Service Level Objective)	Seuils définis sur les SLI (ex: 99.9% de disponibilité)
Error Budget	Marge de manœuvre calculée à partir des SLI/SLO pour décider quand ralentir les déploiements
Incident Response	Traces et logs pour diagnostiquer rapidement la cause racine
Post-mortem	Données factuelles pour analyser les incidents sans blâme

L'observabilité transforme les discussions subjectives (« le site est lent ») en données actionnables (« le P99 du checkout dépasse 800 ms depuis 14 h »).

En résumé

Ce qui change concrètement, ce n'est pas la quantité de graphiques affichés, c'est la formulation des constats. À gauche, des phrases invérifiables qui mènent à des arbitrages au jugé ; à droite, des mesures datées et chiffrées sur lesquelles une équipe peut décider. Lisez chaque ligne comme une paire : même situation, deux niveaux de preuve disponibles.

Sans observabilité	Avec observabilité
« Ça marche sur ma machine »	« Le déploiement a augmenté la latence de 15 % »
« On a eu une panne hier »	« L'incident a duré 23 min, impactant 2,3 % des requêtes »
« Il faut plus de serveurs »	« Le service X consomme 40 % du CPU pour 5 % du trafic »
Réaction aux plaintes utilisateurs	Détection proactive avant impact visible

Explorer cette section

La section est découpée en quatre blocs qui répondent à des besoins différents, pas à des niveaux de difficulté croissants. Les fondamentaux posent le vocabulaire et les modèles, la formation construit une stack réelle sur Kubernetes, les pratiques corrigent une plateforme déjà en place, et les outils servent de référence quand vous cherchez une option de configuration précise. Choisissez le bloc qui correspond à votre situation du moment, vous n'avez pas à les parcourir dans l'ordre.

Fondamentaux

Les concepts durables pour comprendre l'observabilité : signaux (logs, métriques, traces), SLI/SLO, OpenTelemetry, corrélation, gouvernance des coûts.

Pour qui : Ceux qui veulent comprendre avant de configurer.

Accéder aux fondamentaux →

Formation Labs

9 modules pratiques pour construire une stack complète sur Kubernetes : Prometheus, Grafana, Alertmanager, Loki, Tempo.

Durée : ~7h30 | Format : Hands-on avec commandes testées

Commencer la formation →

Pratiques

Patterns éprouvés pour une observabilité efficace en production : dashboards, alerting, runbooks, observabilité Kubernetes.

Pour qui : Ceux qui ont déjà une stack et veulent l'améliorer.

Consulter les pratiques →

Outils

Guides détaillés des outils : Prometheus, Grafana, Loki, Tempo, OpenTelemetry Collector, Alertmanager, exporters...

Pour qui : Ceux qui cherchent la doc d'un outil précis.

Explorer les outils →

Formation : de zéro à une stack production-ready

La formation suit un ordre imposé par les dépendances techniques, pas par la difficulté : sans Prometheus en place, Alertmanager n'a rien à router, et sans traces Tempo, le module de corrélation n'a rien à relier. Comptez environ 7 h 30 au total, mais chaque module se tient sur une session isolée si vous conservez le cluster de lab entre deux séances.

La formation couvre 9 modules progressifs :

Module	Contenu	Durée
00, Setup	Minikube, kubectl, Helm, environnement de lab	30 min
01, Application démo	Déployer OpenTelemetry Demo (microservices)	20 min
02, Prometheus	Collecter les métriques, PromQL, requêtes	45 min
03, Grafana	Créer des dashboards, variables, alertes visuelles	45 min
04, Alertmanager	Règles d'alerte, routing, silences, inhibitions	45 min
05, Loki	Centraliser les logs, LogQL, labels	45 min
06, Tempo	Collecter les traces, intégration OpenTelemetry	45 min
07, Corrélation	Relier métriques, logs et traces	45 min
08, Production	Patterns de mise en production, haute disponibilité	60 min

Commencer la formation Module 00 : Installation de l'environnement de lab

L'écosystème d'outils open source

Les outils ci-dessous reviennent dans tous les guides de la section. Ils se répartissent en trois couches successives : instrumenter la source, collecter et stocker le signal, puis visualiser et alerter. Un trou dans une couche rend les deux autres inutiles, ce qui explique pourquoi une stack d'observabilité s'assemble rarement outil par outil.

Collecte et stockage

C'est la couche qui coûte le plus cher à exploiter, parce que c'est elle qui écrit sur disque. La colonne Signal est la plus importante à lire : chaque moteur est spécialisé sur un type de donnée et les mélanger dans un seul backend finit toujours par un problème de rétention. L'OpenTelemetry Collector fait exception, il ne stocke rien mais oriente les trois signaux vers le bon destinataire.

Outil	Signal	Rôle	Guide
Prometheus	Métriques	Collecte, stockage, requêtes (PromQL)	Installation
Loki	Logs	Agrégation de logs, requêtes (LogQL)	Guide Loki
Tempo	Traces	Stockage de traces distribuées	Guide Tempo
OpenTelemetry Collector	Tous	Pipeline de collecte unifié	Guide OTel Collector

Visualisation et alerting

Ces deux outils sont souvent confondus alors qu'ils traitent des moments différents. Grafana sert quand un humain regarde déjà l'écran ; Alertmanager sert quand personne ne regarde et qu'il faut décider qui réveiller. Une plateforme qui n'a que Grafana ne détecte rien la nuit, une plateforme qui n'a qu'Alertmanager ne permet pas de comprendre ce qui a été détecté.

Outil	Rôle	Guide
Grafana	Dashboards, exploration, corrélation	Guide Grafana
Alertmanager	Routing des alertes, silences, notifications	Guide Alertmanager

Instrumentation

L'instrumentation est l'étape que les équipes repoussent le plus, et c'est pourtant elle qui détermine la qualité de tout le reste : un backend ne peut rien montrer que la source n'a pas émis. Les exporters Prometheus couvrent ce que vous n'avez pas écrit vous-même (base de données, système, broker), le SDK OpenTelemetry couvre votre propre code.

Outil	Rôle	Guide
OpenTelemetry SDK	Instrumentation des applications	OpenTelemetry
Exporters Prometheus	Exposition des métriques (Node, MySQL, Redis...)	Exporters

Alternatives selon vos besoins

Le choix entre open source et SaaS ne se joue pas sur les fonctionnalités, qui se recouvrent largement, mais sur le coût d'exploitation que vous acceptez d'internaliser. Un backend auto-hébergé demande du stockage, de la rétention et une astreinte ; un service managé facture au volume ingéré, ce qui pousse à filtrer à la source. Retenez surtout que les colonnes ne sont pas exclusives : l'instrumentation OpenTelemetry reste la même des deux côtés, ce qui permet de changer de destination sans retoucher le code applicatif.

Besoin	Open source	SaaS managé
Métriques	Prometheus, VictoriaMetrics, Mimir	Datadog, New Relic, Grafana Cloud
Logs	Loki, OpenSearch, Elasticsearch	Datadog, Splunk, Grafana Cloud
Traces	Tempo, Jaeger, Zipkin	Datadog, Honeycomb, Grafana Cloud
APM complet	SigNoz (open source)	Datadog, New Relic, Dynatrace

Par où commencer ?

Le piège classique consiste à démarrer par l'installation d'un outil avant d'avoir posé la question à laquelle il doit répondre. Repérez d'abord votre ligne dans le tableau, puis suivez le parcours correspondant sans sauter d'étape : les guides supposent acquis le vocabulaire des fondamentaux, en particulier la distinction entre métriques, logs et traces.

Votre situation	Parcours recommandé
Je découvre l'observabilité	Fondamentaux → Formation Labs
Je connais les concepts, je veux pratiquer	Formation Labs directement
J'ai déjà une stack, je veux améliorer	Pratiques (dashboards, alerting)
Je cherche la doc d'un outil précis	Outils

Valider vos acquis

L'observabilité se valide sur le terrain, en construisant une stack complète et en diagnostiquant de vrais problèmes. Les examens DevSecOps du site testent votre compréhension des métriques, logs et traces. L'observabilité est aussi un pilier des certifications Kubernetes : le CKA et le CKS incluent des compétences de monitoring et de diagnostic.

Prochaines étapes

Fondamentaux Comprendre les concepts avant de configurer les outils.

Formation Labs 9 modules hands-on pour construire votre stack.

Pratiques Dashboards, alerting, runbooks pour la production.

Outils Prometheus, Grafana, Loki, Tempo, OpenTelemetry...