Maintenance et changements sur un cluster Kubernetes

Toute opération de maintenance sur Kubernetes est une disruption volontaire. La différence entre une maintenance réussie et un incident en production, c'est la méthode : cordon, drain, intervention, uncordon, dans cet ordre, avec les bons garde-fous.

Les PodDisruptionBudgets sont vos filets de sécurité : ils garantissent que vos interventions respectent les contraintes de disponibilité des applications, même lors d'une mise à jour d'urgence.

Le workflow de maintenance

Vérifier l'état initial, kubectl get nodes et kubectl get pods -A pour confirmer que le cluster est sain avant d'intervenir.
Cordon du nœud, kubectl cordon <nœud> marque le nœud comme non-schedulable : les nouveaux pods ne seront plus placés dessus.
Drain des pods, kubectl drain <nœud> --ignore-daemonsets --delete-emptydir-data évacue les pods existants vers d'autres nœuds.
Intervention, maintenance OS, remplacement de disque, mise à jour des composants, reboot.
Uncordon, kubectl uncordon <nœud> rend le nœud à nouveau éligible au scheduling une fois la maintenance terminée.
Vérification, kubectl describe node <nœud> pour confirmer le retour à l'état Ready.

Guides de cette section

Préparer une maintenance de cluster Kubernetes Workflow complet cordon → drain → uncordon, PodDisruptionBudgets et vérifications.

Gérer les nœuds d'un cluster Kubernetes Labels, taints, annotations, remplacement de nœud : administration au quotidien.

Mettre à jour un cluster Kubernetes Version skew policy, ordre des composants, workflow kubeadm upgrade et vérifications post-upgrade.

3 guides publiés

À retenir

Ne jamais intervenir directement sur un nœud sans l'avoir drainé, les pods pourraient être interrompus brutalement
Les DaemonSets ne sont pas évacués par drain (normal), utilisez --ignore-daemonsets
Les emptyDir sont effacés par drain, vérifiez que ces données sont dispensables ou persistées ailleurs
La version skew policy de Kubernetes limite la différence de version entre composants à 2 mineurs
Upgrader composant par composant : kubectl → kubelet → kubeadm, dans cet ordre

Pour aller plus loin

Gérer les nœuds : Le cordon, le drain et la remise en service d'un nœud sans coupure visible.
Mettre à jour un cluster : La montée de version du control plane puis des nœuds, le changement le plus risqué du cycle.
Fiabiliser les applications : Les PodDisruptionBudgets et l'anti-affinité qui rendent une maintenance transparente.