Aller au contenu
Outils medium

Backends métriques

4 min de lecture

Un backend métriques est la brique qui stocke et indexe vos séries temporelles. Prometheus gère la plupart des cas. Passez à Mimir ou VictoriaMetrics quand vous atteignez ses limites : multi-cluster, rétention longue, haute disponibilité native.

Une stack métriques se découpe en 5 briques. Le backend TSDB est la brique #3 :

#BriqueRôleExemples
1SourcesÉmettent les métriquesApps, exporters, kubelet
2CollecteRécupère et transmetPrometheus (pull), OTel Collector (push)
3Backend TSDBStocke + indexePrometheus, Mimir, VictoriaMetrics
4QueryInterroge les donnéesPromQL, query frontend
5AlertingÉvalue règles + notifieAlertmanager

Flux de données d'une stack métriques : sources → collecte → backend TSDB → query → alerting

SymptômeCause probableSolution
Prometheus OOM fréquentsTrop de séries ou cardinalitéVictoriaMetrics (meilleure compression)
Compactions douloureusesVolume + rétentionObject storage (Mimir ou VM)
Rétention > 30 jours requiseDisque local insuffisantMimir ou VictoriaMetrics + S3
Multi-cluster à agrégerPas de vue globaleMimir (multi-tenant) ou Thanos
Besoin HA nativePrometheus = SPOFMimir ou VictoriaMetrics cluster
CritèrePrometheusMimirVictoriaMetrics
Cas d’usageMono-clusterMulti-cluster, multi-tenantHaute perf, migration facile
Complexité opsSimpleÉlevée (microservices)Modérée
ScalingVertical uniquementHorizontal natifVertical + cluster
Rétention longueDisque local (limité)Object storage (S3, GCS)Object storage
HA nativeNon (fédération/Thanos)OuiOui (cluster mode)
Coût opérationnelFaibleÉlevéModéré
LicenceApache 2.0AGPL (attention intégration)Apache 2.0
Compression~1.3 bytes/sample~1.0 bytes/sample~0.7 bytes/sample
Anti-patternPourquoi c’est un problèmeSolution
Labels dynamiques (user_id, request_id)Explosion de cardinalité → OOMUtiliser des métriques summary/histogram
Rétention longue sur disque localCompactions lentes, risque de perteObject storage ou remote_write
Un Prometheus isolé par clusterPas de vue globale, silosFédération, Thanos ou Mimir
Scrape interval < 15s sans raisonVolume x2 ou x4Garder 15-30s sauf besoins spécifiques
  • Backend TSDB = stockage + indexation des séries temporelles
  • Prometheus : excellent pour mono-cluster, mono-tenant, rétention courte
  • Mimir/VictoriaMetrics : pour multi-cluster, HA native, rétention longue
  • Alertmanager n’est pas un backend — c’est la brique alerting/notification
  • Évitez les labels à haute cardinalité : c’est la cause #1 des problèmes de performance

Ce site vous est utile ?

Sachez que moins de 1% des lecteurs soutiennent ce site.

Je maintiens +700 guides gratuits, sans pub ni tracing. Aujourd'hui, ce site ne couvre même pas mes frais d'hébergement, d'électricité, de matériel, de logiciels, mais surtout de cafés.

Un soutien régulier, même symbolique, m'aide à garder ces ressources gratuites et à continuer de produire des guides de qualité. Merci pour votre appui.