Aller au contenu
Outils medium

Grafana — Visualisation et observabilité

5 min de lecture

logo grafana

Grafana est votre cockpit d’observabilité : vous branchez des sources de données (métriques / logs / traces) et vous obtenez des dashboards lisibles, une exploration ad-hoc et des alertes. ➡️ Grafana ne stocke pas : il interroge des backends (Prometheus, Loki, Tempo, etc.) et affiche / alerte.

Trois méthodes selon votre contexte. Docker convient au test local, Helm à Kubernetes, APT à un serveur dédié. Dans tous les cas, vous aurez Grafana accessible en moins de 2 minutes.

Fenêtre de terminal
docker run -d \
--name grafana \
-p 3000:3000 \
-v grafana-data:/var/lib/grafana \
grafana/grafana-enterprise:12.3.2
  • Ouvrir http://localhost:3000
  • Login : admin / admin (Grafana vous force à changer le mot de passe)

Beaucoup de débutants pensent que Grafana “fait tout”. En réalité, Grafana est spécialisé dans l’affichage : il lit vos données, les rend visuelles, et vous alerte. Mais il ne collecte ni ne stocke rien.

Grafana faitGrafana ne fait pas
Dashboards (graphes, tables, stats, heatmaps)Stockage des métriques/logs/traces
Explore (requêtes ad-hoc)Collecte (exporters/agents)
Alerting (règles + routage + notifications)Discovery / scraping à votre place

Les 4 concepts à connaître (sinon tout paraît flou)

Section intitulée « Les 4 concepts à connaître (sinon tout paraît flou) »

Si vous comprenez ces 4 objets, tout le reste devient logique. Inversement, sauter cette étape rend chaque action dans l’interface confuse.

Datasource

La connexion vers vos données. Sans datasource → pas de graphe.

Panel

Une visualisation (graphe/table/stat). Le panel contient la requête (PromQL, LogQL, SQL…).

Dashboard

Un écran composé de panels + variables. Il doit répondre à 1 question (ex: “mon cluster est-il OK ?”).

Alerting

Des règles + un routage + des contacts. Une alerte utile décrit un symptôme.

Une fois Grafana installé, suivez ces 3 étapes pour passer de l’écran vide à un dashboard utile. L’objectif : avoir quelque chose à montrer en 10 minutes.

  1. Connections → Data sources → Add data source
  2. Choisir Prometheus
  3. URL : http://prometheus:9090 (adaptez à votre environnement)
  4. Save & test
  1. Dashboards → Import
  2. Coller un ID (ex: 1860 “Node Exporter Full”)
  3. Sélectionner la datasource
  4. Import

3) Rendre le dashboard “utilisable” (sinon il reste décoratif)

Section intitulée « 3) Rendre le dashboard “utilisable” (sinon il reste décoratif) »
  • Ajoutez 1 variable : cluster ou instance
  • Ajoutez 1 panel “symptôme” : up, erreurs, latence…
  • Limitez les séries affichées (topk / agrégation) : sinon Grafana devient illisible

Une alerte “CPU > 80%” brute spamme vite. Le minimum vital :

1 règle = 1 symptôme, 1 destination, un seuil raisonnable, un délai.

  1. Alerting → Contact points → Add contact point
  2. Configurez Email/Slack/Webhook
  3. Test
  4. Alerting → Alert rules → New alert rule
  5. Requête simple (exemple Prometheus) : up == 0
  6. Condition : “IS ABOVE 0” pendant 2m
  7. Ajoutez severity="critical" + team="platform"
  8. Sauvegardez + vérifiez le routage

Grafana s’adapte à de nombreux contextes. Voici les cas où il apporte le plus de valeur, avec les patterns de dashboards et d’alerting associés.

Kubernetes

Vues cluster / namespaces / workloads. Corrélation logs + métriques. Intégration native Prometheus Operator.

SRE / Infra

Les 4 “golden signals” : latence, erreurs, saturation, trafic. Dashboards serveurs, réseau, stockage.

Applications

Métriques RED/USE par service. Alerting orienté client. Traces + logs corrélés.

FinOps

Dashboards coûts cloud, usage par équipe, tendances et prévisions.

Ces erreurs sont fréquentes et transforment Grafana en usine à gaz. La bonne nouvelle : chaque piège a un fix simple.

  • Dashboard “fourre-tout” → personne ne le consulte. Fix : 1 dashboard = 1 question
  • Trop de séries sur un panel → UI lente / illisible. Fix : agréger, topk, limiter
  • Variables non bornées → timeouts. Fix : valeurs limitées, labels stables
  • Alertes “seuils bruit” → spam. Fix : alerter sur symptômes (down, erreurs, latence)
  • Pas de persistence → tout disparaît. Fix : volume Docker / PVC K8s
  • Clicops en prod → non reproductible. Fix : provisioning YAML (dans la formation)

Avant de déclarer Grafana “prêt pour la prod”, validez ces points. Un oubli coûte cher (données perdues, accès non sécurisé, dashboards non reproductibles).

  • Persistence activée (volume/PVC)
  • Mot de passe admin changé / désactivé via SSO
  • HTTPS (Ingress / reverse proxy)
  • RBAC (folders, rôles, accès)
  • Backups testés (SQLite/PostgreSQL selon déploiement)
  • 1 dashboard “overview” réellement utilisé
  • 5–10 alertes max au départ (qualité > quantité)

Cette page donne les bases. Pour maîtriser Grafana (création de dashboards, alerting avancé, provisioning GitOps), suivez la formation complète avec lab Kubernetes.

Liens officiels pour approfondir ou résoudre un problème spécifique.

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracing. Aujourd'hui, ce site ne couvre même pas mes frais d'hébergement, d'électricité, de matériel, de logiciels, mais surtout de cafés.

Un soutien régulier, même symbolique, m'aide à garder ces ressources gratuites et à continuer de produire des guides de qualité. Merci pour votre appui.