Documenter : créer une documentation qui survit
Mise à jour :
Résoudre ce cauchemar récurrent
Imaginez : il est 2h du matin. Votre téléphone sonne. Alerte critique sur le service de paiement. Vous vous connectez, le cœur battant. Et là, la question fatidique : “Comment on redémarre ce truc, déjà ?”
Vous cherchez dans le wiki. Rien. Vous fouillez Slack. Des bribes d’info datant de 2022. Vous appelez Jean-Pierre, le seul qui sait. Il ne répond pas — il est en vacances.
Ce cauchemar a un nom : l’absence de documentation.
Ce n’est pas un problème de paresse. C’est un problème systémique. Les équipes qui documentent mal ne sont pas incompétentes — elles n’ont simplement pas la bonne méthode.
Objectif de ce parcours
À la fin de ce parcours, vous saurez :
- Comprendre pourquoi la documentation est un outil de survie, pas une corvée
- Structurer votre documentation en 5 familles distinctes
- Créer les documents essentiels : Service Overviews, runbooks, postmortems
- Gouverner : définir qui maintient quoi, et à quelle fréquence
- Choisir les bons outils et évaluer votre maturité
Ce parcours est progressif. Chaque étape s’appuie sur la précédente.
À qui s’adresse ce parcours ?
Vous êtes au bon endroit si vous êtes :
- SRE ou ops gérant des systèmes en production
- Tech Lead voulant structurer la documentation de l’équipe
- Développeur fatigué de chercher l’info pendant les incidents
- Manager souhaitant réduire le “bus factor” de l’équipe
Prérequis :
- Avoir un système en production (même petit)
- Connaître les bases de Git (commits, branches)
- Être prêt à investir du temps maintenant pour en gagner plus tard
Votre parcours d’apprentissage
Ce parcours suit une progression logique en 5 étapes :
Durée totale estimée : environ 3 heures de lecture active.
Étape 1 — Pourquoi documenter (et ce que ça change)
Avant de définir une organisation, comprenons pourquoi la documentation est un investissement, pas une perte de temps.
L’analogie de l’assurance incendie
Personne n’aime payer une assurance incendie. C’est de l’argent “perdu” tant que tout va bien. Mais le jour où le feu se déclare, vous êtes content de l’avoir.
La documentation, c’est pareil.
| Situation | Sans documentation | Avec documentation |
|---|---|---|
| Incident à 3h du matin | ”J’appelle Jean-Pierre" | "Je suis le runbook” |
| Nouveau dans l’équipe | 3 semaines pour être autonome | 3 jours + questions ciblées |
| Départ d’un expert | Panique, perte de savoir | Transition sereine |
| Audit de sécurité | ”Euh… je crois que…" | "Voici notre documentation” |
Le “bus factor” : votre indicateur de risque
Le bus factor mesure combien de personnes peuvent disparaître avant que l’équipe soit bloquée.
- Bus factor = 1 → une seule personne détient l’information = risque maximal
- Bus factor = 3+ → l’information est partagée = équipe résiliente
Test rapide : pour chaque service critique, demandez-vous :
- Qui sait le redémarrer ? (1 personne = danger)
- Qui connaît l’architecture ? (1 personne = danger)
- Qui peut déployer en production ? (1 personne = danger)
Étape 2 — Gouverner : qui maintient quoi
Une documentation sans gouvernance meurt en 6 mois. Avant même de créer vos premiers documents, définissez qui sera responsable de quoi.
Ownership : chaque doc a un responsable
| Rôle | Responsabilité |
|---|---|
| Owner | Maintient le document à jour |
| Contributeurs | Proposent des modifications |
| Reviewers | Valident les changements |
Definition of Done : intégrer la doc
Une fonctionnalité n’est pas terminée tant que la documentation n’est pas mise à jour.
Checklist PR :
- Tests passent
- Code review approuvée
- Documentation mise à jour
- CHANGELOG complété
Cycles de review
| Type | Fréquence | Déclencheur |
|---|---|---|
| Runbooks critiques | Trimestrielle | + après chaque utilisation |
| Service Overviews | Semestrielle | + lors de changement majeur |
| ADR | Jamais | Immuables (nouvelle décision = nouvelle ADR) |
| Postmortems | Jamais | Archive historique |
Étape 3 — Structurer en 5 familles
Une documentation efficace n’est pas un wiki fourre-tout. Elle est structurée en familles, chacune répondant à un besoin différent.
| Famille | Question | Exemple | Mise à jour |
|---|---|---|---|
| Cartographie | Qu’est-ce qui existe ? | Inventaire serveurs, services | À chaque changement |
| Architecture | Comment ça fonctionne ? | Diagrammes, flux de données | Lors de refonte |
| Procédures | Comment agir ? | Runbooks, checklists | Après chaque incident |
| Référentiel | Qui contacter ? | Annuaire, conventions | Arrivées/départs |
| Historique | Pourquoi ce choix ? | ADR, postmortems | Immuable |
Structure de dossiers recommandée
documentation/├── services/ # Cartographie + Architecture par service│ ├── auth-api/│ │ ├── overview.md # Carte d'identité du service│ │ ├── architecture.md # Diagrammes│ │ └── runbooks/ # Procédures spécifiques│ └── payment-service/│├── procedures/ # Procédures transverses│ ├── deploiement.md│ └── gestion-incidents.md│├── referentiel/ # Référentiel│ ├── equipes.md│ └── conventions.md│└── decisions/ # Historique ├── adr/ └── postmortems/Étape 4 — Créer les documents essentiels
Maintenant que vous avez la gouvernance et la structure, passons à la création. Voici les 4 types de documents que toute équipe devrait avoir.
3.1 Service Overview — la carte d’identité
Chaque service critique doit avoir sa “carte d’identité” : ce qu’il fait, qui le maintient, comment il fonctionne.
Contenu minimum :
- Nom, owner, criticité, SLA
- Ce que fait le service (2-3 phrases)
- Architecture simplifiée
- Dépendances critiques
- Contacts et escalade
3.2 Runbooks — les procédures d’urgence
Un runbook est une recette de cuisine pour résoudre un problème spécifique. Étapes numérotées, commandes exactes, validations.
Caractéristiques :
- 1 runbook = 1 problème précis
- Étapes numérotées avec commandes
- Validation après chaque étape
- Section “Si ça ne marche pas”
3.3 Postmortems — apprendre des incidents
Un postmortem documente ce qui s’est passé, pourquoi, et comment éviter que ça se reproduise. Sans chercher de coupable.
Structure :
- Timeline factuelle
- Impact (durée, utilisateurs affectés)
- Causes racines (5 Whys)
- Actions correctives avec owners
3.4 Checklists — ne rien oublier
Une checklist n’est pas un runbook. C’est une liste de points à vérifier pour ne rien oublier lors d’une opération.
Usages :
- Pré-déploiement (10-15 points)
- Post-incident (validation complète)
- Onboarding (accès, outils, docs)
Étape 5 — Choisir les outils et évaluer sa maturité
Dernière étape : choisir où stocker votre documentation et mesurer votre progression.
Docs-as-Code vs Wiki
| Approche | Avantages | Inconvénients |
|---|---|---|
| Docs-as-Code (Git + Markdown) | Versionné, reviewable, proche du code | Courbe d’apprentissage |
| Wiki (Confluence, Notion) | Accessible à tous, WYSIWYG | Pas de review, dérive facile |
Recommandation : Docs-as-Code pour la doc technique, Wiki pour la doc organisationnelle.
Outils recommandés
| Outil | Type | Meilleur pour |
|---|---|---|
| MkDocs | Docs-as-Code | Documentation technique simple |
| Starlight | Docs-as-Code | Sites de documentation complets |
| Docusaurus | Docs-as-Code | Documentation produit |
| Antora | Docs-as-Code | Documentation multi-projets |
| Notion | Wiki | Documentation légère, partagée |
| Confluence | Wiki | Documentation d’entreprise |
Maintenant : passer à la pratique
Vous avez les bases et vous avez choisi votre outil. Voici comment démarrer selon votre situation :
Minimum vital pour survivre :
- Lister vos 3 services les plus critiques
- Pour chacun, créer un Service Overview minimal
- Documenter 1 runbook pour l’incident le plus fréquent
→ Résultat : vous pouvez gérer les incidents courants
Base solide :
- Compléter les Service Overviews des services critiques
- Créer 3-5 runbooks (incidents fréquents)
- Définir l’ownership (qui maintient quoi)
- Choisir 1 outil centralisé
→ Résultat : onboarding possible, incidents gérables
Organisation pérenne :
- Couvrir tous les services avec overviews complets
- Runbooks pour tous les scénarios d’incident
- Process de review trimestriel
- Templates standardisés pour chaque type
- Métriques d’usage
→ Résultat : équipe autonome, transferts fluides
Auto-évaluation
Avant de passer aux guides détaillés, vérifiez votre compréhension :
- Je sais expliquer pourquoi la documentation est un investissement
- Je connais les 5 familles de documentation
- Je peux distinguer runbook, checklist et playbook
- Je comprends le concept d’ownership
- Je sais quand faire une review de documentation
- Je connais la différence entre Docs-as-Code et Wiki
Toutes les cases cochées ? Commencez par créer votre premier Service Overview ou faites l’auto-évaluation maturité pour identifier vos priorités.
Guides par outil
Une fois les fondamentaux maîtrisés, choisissez votre outil :