Trier, compter et dédoublonner sous Linux

Vous avez la sortie de ps aux, un fichier de log Apache, ou une liste de paquets à analyser — et vous avez besoin de savoir qui apparaît le plus souvent, quelles lignes sont en double, combien il y a d’erreurs 404. Sous Linux, un pipeline de trois commandes suffit : sort pour ordonner, uniq pour dédoublonner, wc pour mesurer.

Ces outils font partie du socle Unix depuis les années 70. Ils sont présents sur tous les systèmes Linux sans installation. Leur vraie puissance est dans la composition : enchaînés, ils remplacent des scripts entiers en une seule ligne.

Vous avez vu les bases de sort, uniq et wc dans les fondamentaux. Ce guide couvre les options avancées et les patterns d’administration réels : tri sur colonne, stabilité, versions, comparaison de listes et analyse de logs.

Ce que vous allez apprendre

Trier sur une colonne précise, par ordre numérique ou de version
Identifier les doublons, les lignes uniques, les plus fréquentes
Mesurer : lignes, mots, octets, caractères UTF-8
Comparer deux listes triées avec comm
Construire le pipeline sort | uniq -c | sort -rn pour analyser n’importe quel log

Dans quel contexte ?

Un incident vient de se produire. Vous avez un access.log de 500 000 lignes et vous vouloir savoir quelle IP a fait le plus de requêtes dans les 10 dernières minutes. Ou vous venez de migrer un paquet et vous voulez comparer la liste des services actifs avant et après. Ou vous auditez un système et vous cherchez les comptes utilisateurs qui apparaissent dans plusieurs fichiers à la fois. Dans ces situations, sort, uniq et comm font en 30 secondes ce qu’un script ferait en 30 lignes — et à moindre risque d’erreur. Ils sont aussi le socle de tout pipeline d’analyse de logs : dès que vous devez répondre à « combien de fois ? » ou « qui/quoi est en double ? », c’est ici que vous commencez.

`sort` — trier avec précision

Rappel : tri alphabétique vs numérique

Le piège le plus fréquent avec sort :

printf "10\n2\n20\n1\n100\n" | sort

Sans option, sort trie comme du texte. 10 vient avant 2 parce que 1 < 2 en ASCII.

printf "10\n2\n20\n1\n100\n" | sort -n

L’option -n est indispensable dès que vous triez des nombres.

Trier sur une colonne

L’option -k choisit la colonne de tri. Par défaut, le séparateur est l’espace ou la tabulation.

# Fichier scores.txt : "nom score"
sort -k2 -n scores.txt

frank 60
bob 72
diana 72
charlie 88
alice 95
eve 95

-k2 : trier sur le deuxième champ
-n : tri numérique (sans ce flag, 60, 72, 88 seraient triés comme du texte)

Pour trier par ordre décroissant :

sort -k2 -rn scores.txt

eve 95
alice 95
charlie 88
diana 72
bob 72
frank 60

Trier sur une colonne avec un délimiteur personnalisé

Utilisez -t pour définir le séparateur de champs :

# Trier /etc/passwd par UID (champ 3, délimiteur :)
sort -t: -k3 -n /etc/passwd | head -5

root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/usr/sbin/nologin
bin:x:2:2:bin:/bin:/usr/sbin/nologin
sys:x:3:3:sys:/dev:/usr/sbin/nologin
sync:x:4:65534:sync:/bin:/bin/sync

C’est le même mécanisme que cut -d: — le duo sort -t: -k3 -n | cut -d: -f1,3 est très courant.

Trier et dédoublonner en une passe : `-u`

sort -u est l’équivalent de sort | uniq mais en plus efficace : il trie et supprime les doublons en une seule opération.

sort -u fruits.txt

apple
banana
cherry
date

Trier des numéros de version : `-V`

Le tri alphabétique et le tri numérique donnent tous les deux de mauvais résultats pour des numéros de version comme v1.9, v1.10. L’option -V (version) les gère correctement :

printf "v1.10\nv1.9\nv1.2\nv2.0\n" | sort -V

v1.2
v1.9
v1.10
v2.0

Utile pour trier des tags Git, des noms de paquets ou des journaux versionnés.

Préserver l’ordre des égalités : `--stable`

Quand deux lignes ont la même valeur sur le champ de tri, sort peut les réordonnancer arbitrairement. L’option --stable garantit que leur ordre d’origine est préservé :

sort -k2 -n --stable scores.txt

Les lignes bob 72 et diana 72 gardent l’ordre du fichier source, ce qui compte quand vous enchaînez des tris successifs.

`uniq` — compter et filtrer les doublons

uniq traite les répétitions consécutives. Il doit donc presque toujours être précédé de sort.

Compter les occurrences : `-c`

sort fruits.txt | uniq -c

      2 apple
      3 banana
      2 cherry
      1 date

Le nombre à gauche est le compte d’occurrences. L’indentation variable est normale — c’est la largeur du plus grand nombre.

Trouver les éléments les plus fréquents

Combinez uniq -c avec sort -rn pour obtenir un classement :

sort fruits.txt | uniq -c | sort -rn

      3 banana
      2 cherry
      2 apple
      1 date

C’est le pattern top-N — probablement le pipeline le plus utilisé en analyse de logs Linux.

Afficher uniquement les doublons : `-d`

sort fruits.txt | uniq -d

apple
banana
cherry

Seulement les lignes qui apparaissent plus d’une fois.

Afficher uniquement les lignes uniques : `-u`

sort fruits.txt | uniq -u

date

Seulement les lignes qui apparaissent exactement une fois.

`wc` — mesurer avec précision

Rappel des options de base

wc -l fichier.txt    # nombre de lignes
wc -w fichier.txt    # nombre de mots
wc -c fichier.txt    # nombre d'octets

Compter plusieurs fichiers d’un coup

wc accepte plusieurs fichiers et affiche un total :

wc -l fruits.txt scores.txt access.log

  8 fruits.txt
  6 scores.txt
  8 access.log
 22 total

Utile pour auditer rapidement la taille de fichiers de configuration ou de journaux.

Octets vs caractères : `-c` vs `-m`

-c compte les octets, -m compte les caractères (code points Unicode). La différence apparaît avec des caractères non-ASCII :

echo "héllo" | wc -c    # → 7 (é occupe 2 octets en UTF-8 + newline)
echo "héllo" | wc -m    # → 6 (5 caractères + newline)

En administration Linux, -c est suffisant pour vérifier la taille d’un fichier. Utilisez -m uniquement si vous travaillez avec des fichiers contenant des caractères accentués ou des scripts non-latins.

Compter des éléments filtrés

wc -l à la fin d’un pipeline est une façon fiable de compter des résultats :

# Combien d'utilisateurs avec un UID >= 1000 ?
awk -F: '$3 >= 1000' /etc/passwd | wc -l

# Combien de processus bob tourne en ce moment ?
ps aux | grep "^bob" | wc -l

# Combien de fichiers .conf dans /etc ?
find /etc -name "*.conf" | wc -l

`comm` — comparer deux listes triées

comm compare deux fichiers ligne par ligne et affiche trois colonnes :

colonne 1 : lignes présentes uniquement dans le fichier 1
colonne 2 : lignes présentes uniquement dans le fichier 2
colonne 3 : lignes communes aux deux fichiers

# list_a.txt : apple, banana, cherry
# list_b.txt : banana, cherry, date

comm <(sort list_a.txt) <(sort list_b.txt)

apple
    banana
    cherry
  date

Sélectionner une colonne avec `-1`, `-2`, `-3`

Les options suppriment une colonne :

# Intersection : lignes communes aux deux (supprimer colonnes 1 et 2)
comm -12 <(sort list_a.txt) <(sort list_b.txt)

banana
cherry

# Dans A seulement (supprimer colonnes 2 et 3)
comm -23 <(sort list_a.txt) <(sort list_b.txt)

apple

# Dans B seulement (supprimer colonnes 1 et 3)
comm -13 <(sort list_a.txt) <(sort list_b.txt)

date

Cas d’usage : paquets installés avant/après

# Capturer l'état avant
dpkg --get-selections | awk '{print $1}' | sort > avant.txt

# ... après une opération ...

# Capturer l'état après
dpkg --get-selections | awk '{print $1}' | sort > apres.txt

# Paquets ajoutés
comm -13 avant.txt apres.txt

# Paquets supprimés
comm -23 avant.txt apres.txt

Pipelines d’administration

Analyser les logs : top IPs

Le pattern sort | uniq -c | sort -rn s’applique à n’importe quelle colonne :

# Top IPs dans un log d'accès
awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -rn | head -10

      3 192.168.1.10
      3 192.168.1.5
      2 192.168.1.20

Analyser les codes HTTP

awk '{print $4}' access.log | sort | uniq -c | sort -rn

Trouver les endpoints les plus appelés

awk '{print $3}' access.log | sort | uniq -c | sort -rn

      4 /api/users
      2 /api/products
      2 /api/orders

Les 5 utilisateurs avec le plus grand UID

sort -t: -k3 -n /etc/passwd | tail -5 | cut -d: -f1,3

Compter les connexions SSH actives par IP

ss -tn state established | awk 'NR>1 {print $5}' | cut -d: -f1 | sort | uniq -c | sort -rn

Dépannage

Problème	Cause probable	Solution
`sort` : les nombres sont mal ordonnés	Tri alphabétique par défaut	Ajouter `-n` (numérique) ou `-V` (version)
`uniq` ne supprime pas tous les doublons	Lignes non consécutives	Passer par `sort` avant `uniq`
`comm` : avertissements “not in sorted order”	Fichiers non triés	Utiliser `comm <(sort f1) <(sort f2)`
`wc -l` : résultat inférieur d’une unité	Dernière ligne sans `\n`	Normal — `wc -l` compte les newlines
`sort -k2` : mauvais tri sur colonne	Tri alphabétique sur la colonne	Ajouter `-n` si la colonne contient des nombres
`sort -u` ne supprime pas tout	Casse différente (`Apple` vs `apple`)	Ajouter `-f` (ignore case) : `sort -uf`

À retenir

sort -n est indispensable pour les nombres. Sans lui, 10 vient avant 2.
sort -k2 -n trie sur la deuxième colonne numériquement. -t: définit le délimiteur.
sort -V trie correctement les numéros de version (v1.9 avant v1.10).
sort -u = sort | uniq en une seule passe.
uniq -c compte les occurrences. uniq -d retourne les doublons. uniq -u retourne les uniques.
sort | uniq -c | sort -rn | head -N est le pipeline universel pour trouver les N éléments les plus fréquents.
comm exige des fichiers triés — toujours utiliser <(sort ...).
wc -c compte des octets, wc -m compte des caractères Unicode.

Prochaines étapes

Comparer des fichiers avec diff Identifier ligne par ligne les différences entre deux fichiers de configuration ou deux versions d'un script.

Transformer du texte avec cut, tr et paste Extraire des colonnes, convertir des caractères et fusionner des fichiers — étape qui précède souvent le tri.

Filtrer et transformer du texte (fondamentaux) Revoir les bases de sort, uniq et wc pour débutants.

Référence awk Aller plus loin sur l'extraction de colonnes et les conditions dans un pipeline.