Débugger une application Kubernetes

Kubernetes offre plusieurs outils de diagnostic intégrés. Vous utiliserez principalement kubectl logs pour les erreurs applicatives, kubectl describe et kubectl get events pour les problèmes d’orchestration, et kubectl exec ou kubectl debug pour l’investigation interactive. Ce guide vous montre comment combiner ces outils efficacement.

Ce que vous allez apprendre

Diagnostiquer avec kubectl get, kubectl describe et kubectl get events
Analyser les logs avec kubectl logs
Exécuter des commandes avec kubectl exec
Utiliser les conteneurs éphémères (kubectl debug)
Investiguer les problèmes réseau et de service
Résoudre les erreurs courantes (CrashLoopBackOff, ImagePullBackOff, OOMKilled, Pending)

Philosophie du debug Kubernetes

Le debugging suit une progression logique :

Observer — Quel est l’état actuel du Pod, des événements ?
Comprendre — Pourquoi cet état ? Logs, conditions, exit codes
Investiguer — Plonger dans le conteneur si nécessaire
Corriger — Appliquer la solution et vérifier

Tableau de décision rapide

Symptôme	Première commande	Deuxième commande
Pod en `CrashLoopBackOff`	`kubectl logs --previous`	`kubectl describe pod`
Pod en `Pending`	`kubectl describe pod`	`kubectl get events`
Pod `Running` mais application KO	`kubectl logs`	`kubectl port-forward` / debug réseau
Image minimale sans shell	`kubectl debug --image=busybox`	`ps`, `ss`, `nslookup`, `curl`
Suspicion OOM	`kubectl describe pod`	`kubectl top pod`
Problème de Service	`kubectl get endpoints`	`kubectl port-forward pod`

Commandes essentielles

kubectl get — Vue globale

Première commande pour voir l’état de vos ressources :

# État des Pods dans un namespace
kubectl get pods -n mon-namespace

# État de TOUS les Pods du cluster
kubectl get pods -A

# Plus de détails (node, IP)
kubectl get pods -o wide

# Rafraîchissement continu
kubectl get pods -w

Exemple de sortie :

NAME             READY   STATUS             RESTARTS      AGE
app-healthy      1/1     Running            0             2h
app-crashloop    0/1     CrashLoopBackOff   5 (30s ago)   3m
app-pending      0/1     Pending            0             5m

kubectl get events — Vue chronologique

Commande sous-estimée mais extrêmement utile. Les événements donnent une vue chronologique de ce qui s’est passé :

# Événements du namespace courant, triés par date
kubectl get events --sort-by=.lastTimestamp

# Événements de tous les namespaces
kubectl get events -A --sort-by=.lastTimestamp

# Événements d'un namespace spécifique
kubectl get events -n mon-namespace --sort-by=.lastTimestamp

Exemple de sortie :

LAST SEEN   TYPE      REASON              OBJECT              MESSAGE
2m          Warning   FailedScheduling    pod/app-pending     0/3 nodes are available: 3 Insufficient memory
3m          Normal    Pulling             pod/app-new         Pulling image "nginx:1.25"
5m          Warning   BackOff             pod/app-crashloop   Back-off restarting failed container

kubectl describe — Analyse détaillée

Pour comprendre pourquoi un Pod est dans un état donné :

kubectl describe pod mon-pod

Sections clés à examiner :

Section	Information
Status	État actuel du Pod
Conditions	Ready, Initialized, ContainersReady, PodScheduled
Containers	État de chaque conteneur, codes de sortie, raison
Events	Historique chronologique des actions sur ce Pod

kubectl logs — Logs applicatifs

kubectl logs lit les logs via le kubelet sur le nœud, à partir des fichiers de logs du conteneur. C’est pourquoi votre application doit écrire vers stdout et stderr.

# Logs d'un Pod (conteneur unique)
kubectl logs mon-pod

# Logs d'un conteneur spécifique (Pod multi-conteneurs)
kubectl logs mon-pod -c mon-conteneur

# Dernières 100 lignes
kubectl logs mon-pod --tail=100

# Logs en temps réel
kubectl logs mon-pod -f

# Logs de l'instance précédente du conteneur (après crash)
kubectl logs mon-pod --previous

kubectl exec — Accès interactif

Pour exécuter des commandes dans un conteneur en cours d’exécution :

# Commande unique
kubectl exec mon-pod -- ls -la /app

# Shell interactif
kubectl exec -it mon-pod -- /bin/sh

# Avec conteneur spécifique (Pod multi-conteneurs)
kubectl exec -it mon-pod -c sidecar -- /bin/bash

kubectl debug — Conteneurs éphémères

Les conteneurs éphémères sont stables depuis Kubernetes v1.25. Ils permettent d’injecter un conteneur de debug temporaire dans un Pod existant :

# Ajouter un conteneur éphémère basique
kubectl debug mon-pod -it --image=busybox:1.36 --target=app

# Avec des outils réseau complets
kubectl debug mon-pod -it --image=nicolaka/netshoot --target=app

Exemple pratique dans le conteneur de debug :

# Voir les processus du conteneur cible
ps aux

# Variables d'environnement du processus principal
cat /proc/1/environ | tr '\0' '\n'

# Ports en écoute
ss -tlnp

# Test de connectivité réseau
curl -v http://mon-service:8080/health

kubectl cp — Copier des fichiers

# Pod → Local
kubectl cp mon-pod:/app/logs/error.log ./error.log

# Local → Pod
kubectl cp ./config.yaml mon-pod:/app/config.yaml

# Avec conteneur spécifique
kubectl cp mon-pod:/app/dump.txt ./dump.txt -c app

kubectl top — Métriques instantanées

Voir la consommation CPU/mémoire en temps réel nécessite metrics-server installé dans le cluster. C’est un prérequis courant à l’examen CKAD.

Vérifier que metrics-server est présent :

kubectl get pods -n kube-system | grep metrics-server
kubectl top nodes   # Si metrics-server est absent : "error: Metrics API not available"

Installer metrics-server si absent (environnements de test) :

kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml
# Attendre la disponibilité (30-60 secondes)
kubectl rollout status deployment/metrics-server -n kube-system

Commandes utiles :

# Pods du namespace courant
kubectl top pods

# Tous les Pods (tous les namespaces)
kubectl top pods -A

# Nœuds
kubectl top nodes

# Trier par mémoire décroissante
kubectl top pods --sort-by=memory

# Trier par CPU décroissante
kubectl top pods --sort-by=cpu

# Un Pod avec détail par conteneur
kubectl top pod mon-pod --containers

Exemple de sortie et interprétation :

NAME          CPU(cores)   MEMORY(bytes)
api           234m         128Mi
worker        12m          64Mi
db            890m         512Mi

La colonne CPU est en millicores (1000m = 1 vCPU). Un Pod qui consomme 890m CPU alors que sa requests est à 500m mais sa limit à 1000m fonctionne mais approche la limite — risque de throttling. Pour la mémoire, si la consommation dépasse la limit, le Pod est tué en OOMKilled.

Corréler avec requests/limits :

# Comparer consommation réelle vs limits définies
kubectl get pod mon-pod -o=jsonpath='{.spec.containers[*].resources}' | jq
kubectl top pod mon-pod --containers

kubectl port-forward — Accès direct

Accédez à un Pod ou Service sans exposition externe :

# Vers un Pod
kubectl port-forward mon-pod 8080:80

# Vers un Service
kubectl port-forward svc/mon-service 8080:80

# En arrière-plan
kubectl port-forward mon-pod 8080:80 &

Utile pour tester si le Pod répond indépendamment du Service.

Erreurs courantes et solutions

CrashLoopBackOff

Symptôme : Le conteneur démarre, crash, redémarre en boucle.

Vérifiez les logs du crash précédent
Fenêtre de terminal
```
kubectl logs mon-pod --previous
```

Examinez le code de sortie et la raison

kubectl describe pod mon-pod | grep -A10 "Last State"

Interprétez le code de sortie

Code	Signification
0	Sortie normale (mais Pod censé tourner → vérifiez la commande)
1	Erreur applicative générique
137	Processus tué par SIGKILL (souvent OOM — confirmez avec `describe`)
143	SIGTERM reçu (arrêt propre demandé)

Appliquez la solution
- Code 1 : Corrigez le bug applicatif (voir logs)
- Code 137 + OOMKilled : Augmentez resources.limits.memory
- Sortie immédiate (code 0) : Vérifiez la commande/entrypoint

ImagePullBackOff

Symptôme : Kubernetes ne peut pas télécharger l’image.

kubectl describe pod mon-pod | grep -A10 Events
kubectl get events --field-selector involvedObject.name=mon-pod

Cause	Solution
Image inexistante	Vérifiez le nom et le tag exact
Registry privé	Créez un `imagePullSecret` et référencez-le
Quota Docker Hub	Authentifiez-vous ou utilisez un registry privé
Erreur réseau	Vérifiez la connectivité du nœud vers le registry

Pending

Symptôme : Le Pod reste en Pending indéfiniment.

kubectl describe pod mon-pod | grep -A20 Events
kubectl get events -A --sort-by=.lastTimestamp | grep -i scheduling

Cause	Solution
`Insufficient cpu/memory`	Réduisez les requests ou ajoutez des nœuds
`No nodes match nodeSelector`	Vérifiez les labels des nœuds
`Taints not tolerated`	Ajoutez les tolerations nécessaires
`PVC pending`	Vérifiez le PVC et le StorageClass

OOMKilled

Symptôme : Conteneur tué pour surconsommation mémoire.

# Vérifier l'état du conteneur
kubectl describe pod mon-pod | grep -A5 "Last State"

# Chercher OOMKilled explicitement
kubectl describe pod mon-pod | grep -i oom

# Voir la consommation actuelle
kubectl top pod mon-pod --containers

Solutions :

Augmentez resources.limits.memory
Analysez les fuites mémoire de l’application
Ajoutez du monitoring pour détecter la tendance avant le crash

Pod Running mais application inaccessible

C’est un cas très fréquent : le Pod est Running, mais l’application ne répond pas.

Étape 1 : Vérifiez que le Pod répond directement

# Accès direct au Pod, contournant le Service
kubectl port-forward mon-pod 8080:80
# Dans un autre terminal
curl http://localhost:8080/health

Si le Pod répond : le problème vient du Service ou du réseau. Si le Pod ne répond pas : le problème est applicatif.

Étape 2 : Vérifiez le Service et les Endpoints

# Voir le Service
kubectl get svc mon-service -o wide

# Vérifier que le Service a des endpoints
kubectl get endpoints mon-service

# Ou avec EndpointSlices (Kubernetes moderne)
kubectl get endpointslices -l kubernetes.io/service-name=mon-service

Endpoints vides ? Le selector du Service ne matche aucun Pod. Vérifiez les labels :

# Labels du Service (selector)
kubectl get svc mon-service -o jsonpath='{.spec.selector}'

# Labels des Pods
kubectl get pods --show-labels

Étape 3 : Testez la connectivité depuis un autre Pod

# Lancer un Pod de debug avec des outils réseau
kubectl run debug-net --rm -it --image=nicolaka/netshoot -- /bin/bash

# Dans le Pod de debug
nslookup mon-service
curl -v http://mon-service:80/health
nc -zv mon-service 80

Debug avec images minimales

Quand kubectl exec échoue faute de shell (distroless, scratch), voici le workflow :

Lancez un conteneur éphémère avec une image de debug
Fenêtre de terminal
```
kubectl debug mon-pod -it --image=nicolaka/netshoot --target=app
```

Explorez le conteneur cible

# Processus
ps aux

# Variables d'environnement
cat /proc/1/environ | tr '\0' '\n'

# Fichiers ouverts
ls -la /proc/1/fd/

Testez le réseau

# Résolution DNS
nslookup kubernetes.default
nslookup mon-service.mon-namespace.svc.cluster.local

# Connectivité TCP
nc -zv mon-service 80

# Test HTTP
curl -v http://mon-service:80/health

# Ports en écoute dans le conteneur cible
ss -tlnp

# Routes réseau
ip route

Vérifiez les volumes montés

mount | grep -v "cgroup\|proc\|sys"
cat /etc/resolv.conf

Workflow de debug complet

Vue globale

kubectl get pods -A | grep -v Running
kubectl get events -A --sort-by=.lastTimestamp | head -20

Cibler le Pod problématique
Fenêtre de terminal
```
kubectl describe pod mon-pod
```

Logs applicatifs

kubectl logs mon-pod --tail=100
# Si crash récent
kubectl logs mon-pod --previous

Investigation interactive

# Si shell disponible
kubectl exec -it mon-pod -- /bin/sh

# Sinon
kubectl debug mon-pod -it --image=nicolaka/netshoot --target=app

Vérification réseau/service

kubectl port-forward mon-pod 8080:80
kubectl get endpoints mon-service

Métriques
Fenêtre de terminal
```
kubectl top pod mon-pod --containers
```

Bonnes pratiques

Pour vos applications

Loguez vers stdout/stderr — Kubernetes capture automatiquement via le kubelet
Implémentez des health endpoints — /health, /ready pour les probes
Définissez des ressources — Évite les OOMKilled silencieux et les Pending
Utilisez des labels cohérents — Facilite le filtrage (kubectl get pods -l app=api)
Gérez SIGTERM proprement — Arrêt gracieux pour les rolling updates

Pour le debug

Commencez par get events — Vue chronologique de ce qui s’est passé
Utilisez -A / --all-namespaces — Quand vous ne savez pas où est le problème
Gardez une image de debug — nicolaka/netshoot ou busybox pour les cas difficiles
Centralisez les logs — Loki, Elasticsearch, CloudWatch pour l’historique

Réflexes CKAD

Vue globale rapide

kubectl get pods -A
kubectl get events -A --sort-by=.lastTimestamp

Diagnostic d’un Pod

kubectl describe pod <pod>
kubectl logs <pod> --previous

Investigation interactive
Fenêtre de terminal
```
kubectl exec -it <pod> -- /bin/sh
```
Test de connectivité
Fenêtre de terminal
```
kubectl port-forward <pod> 8080:80
```

Debug avancé (images minimales)

kubectl debug <pod> -it --image=busybox --target=<container>

Vérifier les endpoints d’un Service
Fenêtre de terminal
```
kubectl get endpoints <service>
```

À retenir

Situation	Commande
Vue globale tous namespaces	`kubectl get pods -A`
Événements chronologiques	`kubectl get events --sort-by=.lastTimestamp`
Détails d’un Pod	`kubectl describe pod`
Logs applicatifs	`kubectl logs [--previous]`
Shell interactif	`kubectl exec -it -- /bin/sh`
Images minimales	`kubectl debug --image=busybox --target=app`
Test direct Pod	`kubectl port-forward pod 8080:80`
Vérifier Service	`kubectl get endpoints`
Métriques instantanées	`kubectl top pods`
Copier des fichiers	`kubectl cp` (nécessite `tar` dans le conteneur)

Le debugging Kubernetes suit toujours le même pattern : observer l’état global, lire les événements, analyser les logs, vérifier le réseau/service, investiguer interactivement si nécessaire.

Testez vos connaissances

Contrôle de connaissances

Validez vos connaissances avec ce quiz interactif

7 questions

5 min.

80% requis

Informations

Le chronomètre démarre au clic sur Démarrer
Questions à choix multiples, vrai/faux et réponses courtes
Vous pouvez naviguer entre les questions
Les résultats détaillés sont affichés à la fin

Prochaines étapes

Requests et Limits Évitez les OOMKilled en configurant correctement les ressources

Probes de santé Détectez automatiquement les applications défaillantes

Observabilité Monitoring et tracing pour un debug avancé

Rolling Updates Déployez avec interruption minimale et rollback si nécessaire