Aller au contenu
Outils medium

Backends métriques

4 min de lecture

Un backend métriques est la brique qui stocke et indexe vos séries temporelles. Prometheus gère la plupart des cas. Passez à Mimir ou VictoriaMetrics quand vous atteignez ses limites : multi-cluster, rétention longue, haute disponibilité native.

Une stack métriques se découpe en 5 briques. Le backend TSDB est la brique #3 :

#BriqueRôleExemples
1SourcesÉmettent les métriquesApps, exporters, kubelet
2CollecteRécupère et transmetPrometheus (pull), OTel Collector (push)
3Backend TSDBStocke + indexePrometheus, Mimir, VictoriaMetrics
4QueryInterroge les donnéesPromQL, query frontend
5AlertingÉvalue règles + notifieAlertmanager

Flux de données d'une stack métriques : sources → collecte → backend TSDB → query → alerting

SymptômeCause probableSolution
Prometheus OOM fréquentsTrop de séries ou cardinalitéVictoriaMetrics (meilleure compression)
Compactions douloureusesVolume + rétentionObject storage (Mimir ou VM)
Rétention > 30 jours requiseDisque local insuffisantMimir ou VictoriaMetrics + S3
Multi-cluster à agrégerPas de vue globaleMimir (multi-tenant) ou Thanos
Besoin HA nativePrometheus = SPOFMimir ou VictoriaMetrics cluster
CritèrePrometheusMimirVictoriaMetrics
Cas d'usageMono-clusterMulti-cluster, multi-tenantHaute perf, migration facile
Complexité opsSimpleÉlevée (microservices)Modérée
ScalingVertical uniquementHorizontal natifVertical + cluster
Rétention longueDisque local (limité)Object storage (S3, GCS)Object storage
HA nativeNon (fédération/Thanos)OuiOui (cluster mode)
Coût opérationnelFaibleÉlevéModéré
LicenceApache 2.0AGPL (attention intégration)Apache 2.0
Compression~1.3 bytes/sample~1.0 bytes/sample~0.7 bytes/sample
Anti-patternPourquoi c'est un problèmeSolution
Labels dynamiques (user_id, request_id)Explosion de cardinalité → OOMUtiliser des métriques summary/histogram
Rétention longue sur disque localCompactions lentes, risque de perteObject storage ou remote_write
Un Prometheus isolé par clusterPas de vue globale, silosFédération, Thanos ou Mimir
Scrape interval < 15s sans raisonVolume x2 ou x4Garder 15-30s sauf besoins spécifiques
  • Backend TSDB = stockage + indexation des séries temporelles
  • Prometheus : excellent pour mono-cluster, mono-tenant, rétention courte
  • Mimir/VictoriaMetrics : pour multi-cluster, HA native, rétention longue
  • Alertmanager n'est pas un backend, c'est la brique alerting/notification
  • Évitez les labels à haute cardinalité : c'est la cause #1 des problèmes de performance

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracking. Un soutien, même symbolique, m'aide à couvrir l'hébergement et à garder ces ressources gratuites. Merci pour votre appui.

Le formulaire ne s'affiche pas ? Ouvrir Ko-fi dans un onglet.

Abonnez-vous et suivez mon actualité DevSecOps sur LinkedIn