Éliminer le Toil : automatiser le travail sans valeur

Lundi matin. Vous arrivez au bureau avec une liste de projets d’amélioration. Vous voulez enfin automatiser ce déploiement qui prend deux heures, refactoriser ce code fragile, documenter ce processus que vous seul connaissez.

Puis les tickets arrivent. Reset de mot de passe. Redémarrage d’un service qui a crashé pendant le week-end. Vérification manuelle des backups. Création d’un compte utilisateur. À 18h, vous n’avez touché à aucun de vos projets. Vous avez passé la journée à éteindre des feux et à exécuter des tâches répétitives.

Cette situation porte un nom en Site Reliability Engineering : le toil. Et si vous ne le combattez pas activement, il finira par engloutir tout votre temps et celui de votre équipe.

Qu’est-ce que le Toil ?

Le toil n’est pas simplement “du travail ennuyeux” ou “des tâches que personne n’aime faire”. C’est une catégorie précise de travail, définie par Google dans leur livre fondateur sur le SRE.

Le toil est le travail lié à l’exploitation d’un service de production qui répond à six caractéristiques :

Caractéristique	Description	Exemple
Manuel	Un humain l’exécute, pas une machine	Redémarrer un service à la main, copier des fichiers
Répétitif	Revient régulièrement (pas une fois par an)	Tous les lundis, toutes les heures, à chaque déploiement
Automatisable	Un script ou système pourrait le faire	Vérification de logs, création de comptes
Tactique	Répond à un symptôme, pas à une cause	Redémarrer un service qui crashe vs corriger le bug
Sans valeur durable	N’améliore pas le système de manière permanente	Après l’avoir fait, le système n’est pas meilleur
Croît avec le système	Plus d’utilisateurs/serveurs = plus de travail	L’équipe devient un goulot d’étranglement

Même si vous avez écrit un script, si vous devez le lancer manuellement, c’est du toil. La dernière caractéristique est la plus toxique : elle transforme votre équipe en frein à la croissance.

Cycle d'élimination du toil : identifier, mesurer, prioriser, automatiser

Pourquoi le Toil est toxique

Le toil n’est pas juste “ennuyeux”. Il a des effets systémiques graves sur les équipes et les organisations :

Dégradation des carrières : Les ingénieurs qui passent leur temps en toil n’apprennent pas de nouvelles compétences. Leur CV stagne pendant que leurs collègues progressent.
Démotivation : Le travail répétitif sans impact visible crée du désengagement. Les humains ont besoin de sentir que leur travail a du sens.
Impossibilité de scaler : Si chaque nouveau client génère du toil supplémentaire, l’équipe devient un plafond de verre. Vous ne pouvez pas croître plus vite que votre capacité à absorber le toil.
Dette technique invisible : Le temps passé en toil n’est pas investi dans l’amélioration. Les scripts ne sont pas écrits, les processus ne sont pas automatisés.
Turnover : Les bons ingénieurs finissent par partir vers des équipes qui automatisent. Personne ne veut passer sa carrière à redémarrer des services.

La règle des 50%

Google SRE a établi une règle simple pour maintenir l’équilibre : un SRE ne doit pas passer plus de 50% de son temps en toil.

Cette limite n’est pas arbitraire. Elle représente un équilibre entre deux risques.

En dessous de 50%, il y a un risque de déconnexion. Une équipe qui n’a jamais les mains dans la production perd le contact avec la réalité du système. Elle prend des décisions architecturales déconnectées des contraintes opérationnelles. Un peu de toil maintient l’équipe ancrée dans le réel.

Au-dessus de 50%, l’équipe n’a plus le temps d’automatiser. Elle passe son temps à éteindre des feux au lieu de prévenir les incendies. Le toil engendre du toil : moins vous avez de temps pour automatiser, plus le toil s’accumule.

Si votre équipe dépasse régulièrement les 50%, c’est un signal d’alarme qui doit remonter au management. Ce n’est pas un problème de “productivité individuelle” — c’est un problème systémique qui nécessite des ressources supplémentaires ou une réduction du périmètre.

Identifier le Toil dans votre quotidien

La première étape pour éliminer le toil est de le reconnaître. Le toil se cache souvent derrière des habitudes : “On a toujours fait comme ça.”

Posez-vous ces 4 questions sur vos tâches récurrentes :

Est-ce que je fais exactement la même chose que la semaine dernière ?
Est-ce qu’un script pourrait faire ça à ma place ?
Est-ce que cette tâche disparaîtrait si on corrigeait la cause racine ?
Est-ce que cette tâche double si le nombre d’utilisateurs double ?

Si vous répondez “oui” à plusieurs de ces questions, c’est du toil.

Exemples concrets

Tâche	Toil ?	Pourquoi
Redémarrer un service qui crashe	✅ Oui	Manuel, répétitif, traite un symptôme
Créer des comptes utilisateurs	✅ Oui	Automatisable, croît avec les utilisateurs
Vérifier manuellement les backups	✅ Oui	Un monitoring pourrait alerter automatiquement
Répondre aux tickets reset password	✅ Oui	Un portail self-service éliminerait la tâche
Investiguer un nouvel incident	❌ Non	Apprentissage, amélioration, non répétitif
Écrire un script d’automatisation	❌ Non	Investissement qui élimine le toil futur
Faire une code review	❌ Non	Transfert de connaissance, valeur durable
Documenter un processus	❌ Non	Réduit le toil futur (moins de questions)

Mesurer le Toil

Pour éliminer le toil, il faut d’abord le quantifier. Ce qui ne se mesure pas ne s’améliore pas.

La méthode la plus simple est de tenir un journal de toil pendant deux à quatre semaines. Chaque membre de l’équipe note les tâches effectuées, le temps passé, la fréquence (quotidienne, hebdomadaire, mensuelle), et si c’est du toil selon les critères vus plus haut.

Au bout de cette période, calculez le pourcentage de toil de votre équipe. Divisez les heures passées en toil par les heures totales de travail. Si vous obtenez 60%, vous avez un problème sérieux. Si vous êtes à 30%, vous avez une marge de manœuvre confortable.

Catégorisez ensuite votre toil pour prioriser. Chaque tâche de toil peut être évaluée sur trois axes. L’impact mesure le temps que vous gagneriez si cette tâche disparaissait. L’effort mesure la complexité d’automatisation. Le risque mesure les conséquences d’une erreur humaine dans cette tâche.

Les tâches à fort impact et faible effort sont vos quick wins — automatisez-les en premier. Les tâches à fort impact et fort effort sont vos projets majeurs — planifiez-les sur plusieurs sprints. Les tâches à faible impact et fort effort peuvent attendre ou être ignorées.

Stratégies d’élimination

Une fois le toil identifié et priorisé, plusieurs stratégies s’offrent à vous :

Stratégie	Description	Exemple
Automatiser complètement	Un script/job remplace l’intervention humaine	Health check + auto-restart
Self-service	Donner les clés aux utilisateurs	Portail de reset password
Éliminer la cause racine	Corriger le problème sous-jacent	Fixer la fuite mémoire au lieu de redémarrer
Réduire la fréquence	Passer de quotidien à mensuel	Rotation de logs automatique
Simplifier	Réduire les étapes manuelles	Runbook de 20 étapes → script avec 3 validations

Automatiser complètement

La solution idéale : un script, un job automatisé, ou une configuration système remplace totalement l’intervention humaine.

Prenons l’exemple d’un service qui crashe par manque de mémoire. Aujourd’hui, vous recevez une alerte, vous vous connectez, vous redémarrez le service. Demain, vous configurez un health check qui détecte le problème et un auto-restart qui relance le service sans intervention. Vous avez transformé 15 minutes de toil répétitif en zéro intervention humaine.

Proposer du self-service

Parfois, l’automatisation consiste à donner les clés aux utilisateurs plutôt qu’à tout faire vous-même.

Les tickets de reset de mot de passe sont un exemple classique. Au lieu de traiter chaque demande manuellement, déployez un portail où les utilisateurs peuvent réinitialiser eux-mêmes leur mot de passe. Vous passez de dizaines de tickets par semaine à zéro.

Éliminer la cause racine

Le toil est souvent un symptôme. Parfois, la meilleure façon de l’éliminer est de corriger le problème sous-jacent.

Si vous redémarrez un service tous les jours parce qu’il fuit de la mémoire, la vraie solution n’est pas d’automatiser le redémarrage — c’est de corriger la fuite mémoire. Le redémarrage automatisé est un pansement ; le fix de la fuite est un traitement.

Réduire la fréquence

Si l’automatisation complète est trop coûteuse, réduire la fréquence de la tâche peut suffire.

Vous nettoyez manuellement les logs tous les jours ? Configurez une rotation automatique quotidienne et vérifiez manuellement une fois par mois. Vous avez divisé le toil par 30.

Simplifier le processus

En dernier recours, si l’automatisation est impossible, au moins simplifiez.

Un runbook de 20 étapes peut devenir un script interactif avec trois points de validation humaine. Vous n’avez pas éliminé le toil, mais vous l’avez réduit de 20 minutes à 3 minutes.

Exemples de projets anti-toil

Pour rendre ces principes concrets, voici trois projets d’élimination du toil avec leur retour sur investissement.

Provisioning de machines virtuelles

Situation initiale : Créer une VM prend 45 minutes. L’utilisateur ouvre un ticket, un admin se connecte au portail du provider, crée la VM, configure le réseau, installe les agents de monitoring, notifie l’utilisateur. L’équipe traite 50 demandes par mois.

Solution : Un module Terraform définit la configuration standard. Un pipeline CI/CD déclenché par un formulaire self-service provisionne la VM en 5 minutes sans intervention humaine.

Calcul du ROI : Avant, 50 VMs × 45 minutes = 37.5 heures par mois de toil. Après, quasi-zéro. Le développement du module Terraform a pris 40 heures. ROI positif après 5 semaines.

Rotation des secrets

Situation initiale : Chaque trimestre, l’équipe sécurité exige la rotation des secrets. Un ingénieur passe 2 heures par service, pour 15 services. Total : 30 heures de toil par trimestre, dans une fenêtre de temps contrainte.

Solution : Un gestionnaire de secrets avec rotation automatique. Les applications récupèrent les secrets dynamiquement. La rotation devient invisible.

Calcul du ROI : 30 heures par trimestre économisées, plus l’élimination du risque d’oubli qui pouvait entraîner des audits de sécurité coûteux.

Nettoyage des alertes bruyantes

Situation initiale : L’équipe reçoit 50 alertes par jour. Après investigation, 80% sont des faux positifs ou des alertes qui se résolvent d’elles-mêmes. Chaque alerte prend 5 minutes à investiguer. Total : plus de 3 heures par jour de toil.

Solution : Revue systématique des alertes. Suppression des alertes non-actionnables. Augmentation des seuils trop sensibles. Ajout de délais pour les problèmes transitoires.

Calcul du ROI : De 50 alertes à 10 alertes pertinentes par jour. De 3.3 heures à 40 minutes de temps d’investigation. Et surtout, une équipe qui fait à nouveau confiance à son système d’alerting.

Créer une culture anti-toil

L’élimination du toil n’est pas un projet ponctuel — c’est une discipline permanente. Elle nécessite un changement culturel.

Valoriser l’automatisation comme du “vrai travail”

Dans certaines organisations, écrire un script d’automatisation est vu comme du temps “volé” aux projets. C’est une erreur fondamentale. Un script qui économise 10 heures par mois a plus de valeur qu’une feature secondaire. Mesurez et communiquez ces gains.

Budgéter du temps explicitement

Ne laissez pas l’élimination du toil aux “moments creux” — ils n’arrivent jamais. Réservez 20% du temps de l’équipe pour l’automatisation, ou instaurez un “Automation Friday” mensuel où tout le monde travaille sur l’élimination du toil.

Documenter et célébrer les gains

Rendez visibles les économies réalisées. Un post sur le canal de l’équipe : “Avant : 2h par demande. Après : 10 min en self-service. Gain mensuel : 18h. ROI : rentabilisé en 2 mois.” Cela motive et inspire d’autres projets.

Résister aux demandes qui créent du toil

Méfiez-vous des demandes innocentes qui créent du toil permanent. “Peux-tu vérifier manuellement X tous les matins ?” devrait déclencher une question : “Peut-on automatiser cette vérification ?” Chaque engagement de toil est une dette que vous payerez chaque jour.

Ce qu’il faut retenir

Le toil est le travail manuel, répétitif, automatisable, tactique, sans valeur durable, et qui croît avec le système. Il n’est pas juste ennuyeux — il est toxique pour les carrières, le moral, la capacité de croissance, et la qualité technique.

La règle SRE des 50% établit un équilibre : assez de toil pour rester connecté à la production, assez de temps d’ingénierie pour améliorer les choses.

L’élimination du toil suit un cycle : identifier, mesurer, prioriser par ROI, automatiser ou éliminer. Les quick wins (fort impact, faible effort) passent en premier.

L’automatisation n’est pas un luxe ou du temps volé — c’est un investissement à rendement composé. Chaque heure investie dans l’élimination du toil se multiplie dans le temps.

La culture compte autant que les outils. Valorisez l’automatisation, budgétez du temps pour elle, célébrez les gains, et résistez aux demandes qui créent du toil permanent.

Pour aller plus loin

Incidents et Postmortems Apprendre des incidents pour identifier le toil récurrent.

On-Call et Astreintes Organiser les astreintes pour minimiser le toil opérationnel.

Google SRE Book - Ch.5 Toil Le chapitre original sur le toil par Google.

Documenter avant d'automatiser Le runbook est la spec de l'automatisation future.