Aller au contenu
Administration Linux high

Administrer des Systèmes

12 min de lecture

L’administration systèmes, c’est tenir l’infrastructure dans le temps : éviter les pannes quand c’est possible, limiter l’impact quand ça arrive, rendre les systèmes compréhensibles pour l’équipe — et s’améliorer en continu à chaque incident.

Ce module te donne les bases pour ne plus improviser quand quelque chose ne va pas. Concrètement, tu seras capable de :

Opérations quotidiennes :

  • Documenter ce qui compte : écrire des procédures claires (appelées runbooks) pour que n’importe qui puisse intervenir à ta place. Exemple : “Le serveur web ne répond plus → voici les 5 étapes à suivre.”
  • Réagir avec méthode quand ça casse : un incident à 3h du matin, ça stresse. Avoir une méthode (qui prévenir, par quoi commencer, comment communiquer) évite de paniquer.
  • S’améliorer après chaque incident : un problème résolu, c’est bien. Un problème qui ne reviendra plus, c’est mieux. Après chaque incident, on prend 5 minutes pour se demander : “Comment éviter ça la prochaine fois ?”
  • Automatiser pour réduire les corvées : chaque tâche répétitive est un candidat à l’automatisation. La règle des 50% : pas plus de la moitié du temps sur les tâches manuelles, le reste pour améliorer la situation.

Sécurité :

  • Appliquer les bases de sécurité : qui a accès à quoi ? Les mises à jour sont-elles faites ? Ces deux questions simples évitent 80% des problèmes de sécurité.

Observer et diagnostiquer :

  • Surveiller sans te noyer : savoir quels indicateurs regarder (CPU, mémoire, espace disque…) et surtout comprendre ce qu’ils signifient. Une alerte utile, c’est une alerte qui t’aide à agir.

Continuité et résilience :

  • Garantir qu’on peut redémarrer : faire des sauvegardes, c’est bien. Savoir les restaurer quand tout est cassé, c’est mieux. On teste avant d’en avoir besoin.

D’admin sys à SRE : comment le métier a évolué

Section intitulée « D’admin sys à SRE : comment le métier a évolué »

Le métier d’administrateur système n’est pas né hier. En 50 ans, il s’est transformé radicalement — et comprendre cette évolution aide à situer les pratiques actuelles.

Évolution du métier d'administrateur
système

À l’origine, les « opérateurs » surveillaient des machines monumentales dans des salles climatisées. Un seul ordinateur pour toute l’entreprise, des cartes perforées, et chaque opération était manuelle.

Ce qu’on retenait : fiabilité du matériel, procédures strictes, zéro improvisation.

L’arrivée des PC et des réseaux locaux (LAN) change la donne. Au lieu d’un mainframe, l’entreprise déploie des dizaines de machines connectées. L’administrateur doit maîtriser TCP/IP, gérer des utilisateurs, et — nouveauté — penser sécurité face aux premiers virus.

Ce qu’on retenait : interconnexion, gestion des droits, premiers réflexes sécurité.

VMware et Hyper-V permettent de faire tourner plusieurs serveurs virtuels sur une seule machine physique. Une application = un serveur physique ? Terminé. L’administrateur ne gère plus seulement du matériel, mais des environnements virtuels.

Les concepts de haute disponibilité et de redondance deviennent essentiels.

Ce qu’on retenait : abstraction du matériel, optimisation des ressources, premiers PRA sérieux.

AWS, Azure, GCP changent les règles : pourquoi acheter des serveurs quand on peut les louer à la demande ? Docker (2013) et Kubernetes (2014) transforment le déploiement — on empaquète les applications dans des conteneurs légers et portables.

L’administrateur doit maintenant maîtriser :

  • L’Infrastructure as Code (IaC) : décrire l’infrastructure dans des fichiers
  • Les pipelines CI/CD : automatiser les déploiements
  • Les conteneurs et leur orchestration
  • Travailler avec les développeurs (mouvement DevOps)

Ce qu’on retenait : automatisation, code, collaboration dev/ops.

Google formalise en 2016 le concept de Site Reliability Engineering (SRE) : appliquer les principes de l’ingénierie logicielle aux problèmes d’infrastructure.

La pyramide de Dickerson (Hierarchy of Reliability) définit les étapes de maturité :

Pyramide de maturité SRE

NiveauCe que ça signifie
1. MonitoringSavoir ce qui se passe — métriques, logs, alertes
2. Incident ResponseRéagir vite et de façon coordonnée aux pannes
3. Postmortem CultureApprendre des incidents sans chercher de coupable
4. Testing & ReleaseDéployer en confiance grâce aux tests et au CI/CD
5. Capacity PlanningAnticiper la charge et dimensionner correctement
6. ProductIntégrer la fiabilité dès la conception du produit

On ne peut pas sauter d’étapes : sans monitoring solide, impossible de faire de l’incident response efficace. Sans postmortems, on répète les mêmes erreurs.

L’admin sys traditionnel et le SRE ne s’opposent pas — le SRE est une évolution naturelle pour les environnements à grande échelle.

Ce qu’on retient aujourd’hui : construire la fiabilité étape par étape, mesurer, automatiser, apprendre.

Les quatre piliers de l'administration
système

Ces 4 piliers couvrent tout ce qu’un administrateur système doit maîtriser. Chaque guide répond à un besoin concret du quotidien.

Objectif : garder les services disponibles sans improvisation.

C’est le cœur du métier — ce que tu fais tous les jours. L’idée centrale : ne jamais réinventer la roue quand quelque chose tombe en panne à 3h du matin.

  • Runbooks : des procédures écrites pour les situations connues. “Le serveur web ne répond plus” → tu ouvres le runbook, tu suis les étapes. Pas de réflexion sous pression.
  • Checklists : pour les tâches répétitives (déploiement, mise en prod, ajout de serveur). Tu coches, tu ne rates rien.
  • Gestion des incidents : quand ça casse vraiment. Comment qualifier la gravité, qui prévenir, comment coordonner la résolution.
  • Postmortems : après l’incident, on analyse. Pas pour punir, mais pour éviter que ça se reproduise.
  • Astreintes (on-call) : organiser les rotations, gérer la fatigue, définir les escalades. Qui répond à 3h du matin — et comment éviter l’épuisement.
  • Gestion des changements : déployer une modification sans casser la prod. Évaluer le risque, planifier le rollback, tracer ce qui a changé.
  • Documentation opérationnelle : au-delà des runbooks — cartographie des services, diagrammes d’architecture, wiki technique. Savoir où chercher.

Objectif : réduire le risque en continu.

La sécurité n’est pas un projet ponctuel — c’est une hygiène quotidienne. Ces trois sujets sont les fondamentaux que tout admin doit maîtriser, même sans être expert sécu.

  • Patch management : les failles de sécurité sont publiées tous les jours. Si tu ne patches pas, tu laisses des portes ouvertes. Mais patcher sans méthode, c’est risquer de casser la prod.
  • Accès privilégiés : qui a les clés du royaume ? Tracer qui fait quoi avec les comptes root/admin. Sans ça, impossible de savoir qui a fait une erreur (ou une malveillance).
  • Baselines & drift : tu configures un serveur “propre”, mais avec le temps il dérive. Des packages s’ajoutent, des configs changent. Détecter ces dérives, c’est prévenir les problèmes.
  • Hardening : durcir la configuration par défaut. Désactiver les services inutiles, fermer les ports, appliquer les recommandations CIS. Réduire la surface d’attaque.
  • Gestion des secrets : mots de passe, clés API, certificats. Comment les stocker, les distribuer, les renouveler — sans les exposer dans le code ou les logs.

Objectif : comprendre ce qui se passe pour diagnostiquer vite.

Tu ne peux pas réparer ce que tu ne vois pas. L’observabilité, c’est la capacité à comprendre l’état de tes systèmes sans te connecter à chaque machine.

  • Observer (vue d’ensemble) : les trois piliers — logs, métriques, traces. Ce qu’il faut collecter au minimum pour ne pas être aveugle.
  • Stratégie de logs : tous les logs ne se valent pas. Lesquels garder, combien de temps, comment les exploiter quand tu cherches une aiguille dans une botte de foin.
  • Métriques système : CPU, RAM, disque, réseau — les indicateurs de base. Comprendre ce qui est normal pour détecter ce qui ne l’est pas.
  • Alerting : une alerte qui sonne tout le temps, personne ne la regarde. Une alerte bien calibrée te réveille uniquement quand c’est nécessaire.
  • Tracing distribué : suivre une requête de bout en bout à travers plusieurs services. Indispensable dès que tu as plus d’une application.
  • SLI / SLO / Error Budget : le langage commun entre ops et métier. Définir ce qui est “acceptable” en termes de disponibilité et de performance.

Objectif : survivre aux pannes et redémarrer après un gros incident.

Tout casse un jour. La question n’est pas “si” mais “quand”. Ces guides préparent l’après — comment limiter l’impact et redémarrer vite.

  • Sauvegardes & restauration : faire des backups, c’est facile. Restaurer sous pression quand tout est cassé, c’est autre chose. Le guide insiste sur les tests de restauration.
  • PRA / PCA : Plan de Reprise d’Activité, Plan de Continuité. Que faire si le datacenter brûle ? Si un ransomware chiffre tout ? Ces scénarios se préparent à froid.
  • Haute disponibilité : éliminer les points de défaillance unique (SPOF). Si un serveur tombe, un autre prend le relais automatiquement.
  • Capacity planning : anticiper la croissance. Quand ajouter des ressources avant que ça casse ? Comment prévoir la charge des 6 prochains mois ?
  • Tests de résilience : game days, exercices de bascule, chaos engineering light. Tester que le PRA fonctionne vraiment — avant d’en avoir besoin.

Pour débuter, l’idée n’est pas de tout apprendre. Choisis une mission simple et fais-la bien :

  • Mission A — “Je rends l’exploitation plus sûre” → écrire 1 runbook + 1 checklist + 1 procédure de rollback

  • Mission B — “Je réduis le risque sécurité” → définir une cadence de patching + tracer les exceptions

  • Mission C — “Je rends les pannes moins douloureuses” → mettre en place des sauvegardes + faire un test de restauration documenté

Ces missions te forcent à apprendre la technique au bon moment, dans un contexte clair.


  • Le métier se comprend d’abord par le run : routines, incidents, changements, preuves.
  • La technique vient ensuite, au service d’un objectif.
  • L’amélioration continue est le moteur : chaque incident est une occasion d’apprendre. Un bon admin ne fait pas deux fois la même erreur — il documente, il automatise, il partage.
  • Ce module te donne une progression : piliers → missions → mise en pratique → retour d’expérience → amélioration.