GPU dans Incus : passer une carte NVIDIA à un conteneur ou une VM

Faire tourner de l'inférence ou du calcul GPU dans une instance Incus, sans dédier une machine entière : c'est exactement ce que permet le device gpu. Pour un conteneur, Incus partage le GPU de l'hôte et injecte l'userspace NVIDIA tout seul (rien à installer dans le conteneur) ; pour une VM, c'est un passthrough PCI exclusif. Ce guide montre les deux, avec le piège des versions de pilote. Testé avec un NVIDIA H100 sur Incus 7.0.

Ce que vous allez apprendre

La différence conteneur (partage) vs VM (passthrough exclusif).
Attacher un GPU NVIDIA à un conteneur avec nvidia.runtime.
Filtrer le bon GPU sur une machine multi-cartes.
Les pièges de version de pilote.

Prérequis

Un hôte avec un GPU NVIDIA et son pilote noyau installé (nvidia-smi fonctionne sur l'hôte).
Incus installé : voir installer Incus.
Pour l'injection automatique en conteneur : nvidia-container-toolkit (paquet libnvidia-container) sur l'hôte.

Conteneur ou VM : deux mécanismes différents

C'est le point à comprendre avant tout. Le device gpu ne fait pas la même chose selon le type d'instance.

Type	Mécanisme	Partage	Pilote dans l'instance
Conteneur	Partage des périphériques `/dev/nvidia*` de l'hôte	Oui, plusieurs instances	Injecté par `nvidia.runtime`
VM	Passthrough PCI (VFIO)	Non, exclusif à la VM	À installer dans la VM

Pour de l'inférence partagée entre plusieurs environnements, le conteneur est le plus souple. Pour une isolation forte ou un OS invité différent, la VM prend le GPU en exclusivité.

Passer un GPU à un conteneur

L'élégance d'Incus : avec nvidia.runtime=true, il monte l'userspace NVIDIA de l'hôte (bibliothèques et nvidia-smi) dans le conteneur. Inutile d'installer le moindre paquet CUDA dedans.

Lancer un conteneur avec le runtime NVIDIA activé :
Fenêtre de terminal
```
incus launch images:debian/13 gpu-lab -c nvidia.runtime=true
```

Attacher le GPU avec un device de type gpu :

incus config device add gpu-lab gpu0 gpu
# Device gpu0 added to gpu-lab

Vérifier dans le conteneur, sans rien y installer :

incus exec gpu-lab -- nvidia-smi -L

GPU 0: NVIDIA H100 PCIe (UUID: GPU-ada5ffa8-3c66-...)

Le GPU de l'hôte est vu tel quel dans le conteneur, avec les nœuds /dev/nvidia0 et /dev/nvidiactl exposés. Comme c'est un partage, plusieurs conteneurs peuvent recevoir le même GPU.

Cibler le bon GPU

Sur une machine à plusieurs cartes, le device gpu sans filtre expose toutes les cartes. On restreint avec des propriétés de filtrage.

# par identifiant de carte
incus config device add gpu-lab gpu0 gpu id=0

# par adresse PCI
incus config device add gpu-lab gpu0 gpu pci=0000:81:00.0

On peut aussi filtrer par vendorid/productid. C'est indispensable pour dédier une carte précise à une instance et en laisser d'autres libres pour l'hôte ou d'autres instances.

GPU dans une machine virtuelle

Pour une VM, le device gpu déclenche un passthrough PCI : la carte est détachée de l'hôte et rattachée à la VM, en exclusivité. L'hôte ne peut plus l'utiliser tant que la VM tourne.

incus launch images:debian/13 gpu-vm --vm
incus config device add gpu-vm gpu0 gpu

Le piège des versions de pilote

Le problème le plus fréquent en conteneur : une incompatibilité de version entre le pilote noyau de l'hôte et l'userspace injecté. Comme nvidia.runtime monte l'userspace de l'hôte, les deux sont par construction alignés ici. En revanche, si vous installez manuellement des paquets NVIDIA dans le conteneur, ils peuvent entrer en conflit avec le pilote noyau de l'hôte (Failed to initialize NVML: Driver/library version mismatch). La règle : en conteneur, laisser nvidia.runtime gérer l'userspace, ne pas installer de pilote dedans.

À retenir

Device gpu : partage en conteneur, passthrough PCI exclusif en VM.
En conteneur, nvidia.runtime=true injecte l'userspace NVIDIA : rien à installer dedans.
L'injection exige libnvidia-container (nvidia-container-toolkit) sur l'hôte.
Cibler une carte précise avec id=, pci= ou vendorid/productid.
En VM : pilote à installer dans l'invité, IOMMU requis sur l'hôte.

FAQ : questions fréquentes sur le GPU dans Incus

Comment passer un GPU NVIDIA à un conteneur Incus ?

On lance le conteneur avec le paramètre nvidia.runtime=true, puis on ajoute un device de type gpu avec incus config device add. Incus injecte l'userspace NVIDIA de l'hôte et nvidia-smi fonctionne dans le conteneur sans rien installer dedans.

nvidia.runtime + device gpu

incus launch images:debian/13 gpu-lab -c nvidia.runtime=true
incus config device add gpu-lab gpu0 gpu
incus exec gpu-lab -- nvidia-smi -L

Avec nvidia.runtime=true, Incus monte l'userspace NVIDIA de l'hôte (bibliothèques et nvidia-smi) dans le conteneur : rien à installer dedans. Le device gpu expose /dev/nvidia0 et /dev/nvidiactl. Plusieurs conteneurs peuvent partager la même carte.

Quelle différence entre GPU en conteneur et en VM avec Incus ?

En conteneur, le GPU est partagé : plusieurs instances l'utilisent et l'userspace est injecté par nvidia.runtime. En VM, c'est un passthrough PCI exclusif : la carte est détachée de l'hôte, et l'invité doit installer son propre pilote NVIDIA.

Partage vs passthrough exclusif

Type	Mécanisme	Partage	Pilote
Conteneur	Partage de `/dev/nvidia*`	Oui	Injecté par `nvidia.runtime`
VM	Passthrough PCI (VFIO)	Non, exclusif	À installer dans l'invité

Le conteneur convient au partage entre environnements. La VM prend le GPU en exclusivité et exige l'IOMMU activé sur l'hôte (intel_iommu=on / amd_iommu=on).

Pourquoi nvidia-smi échoue-t-il dans un conteneur Incus ?

Le plus souvent parce que libnvidia-container n'est pas installé sur l'hôte : sans lui, nvidia.runtime n'injecte pas l'userspace. Autre cause : un pilote installé manuellement dans le conteneur, en conflit de version avec le noyau de l'hôte.

Comment cibler un GPU précis sur une machine multi-cartes avec Incus ?

On filtre le device gpu avec une propriété : id pour l'identifiant de carte, pci pour l'adresse PCI, ou vendorid et productid. Sans filtre, le device gpu expose toutes les cartes de l'hôte à l'instance.

Filtrer le device gpu

# par identifiant de carte
incus config device add gpu-lab gpu0 gpu id=0

# par adresse PCI
incus config device add gpu-lab gpu0 gpu pci=0000:81:00.0

On peut aussi filtrer par vendorid / productid. Sans filtre, le device gpu expose toutes les cartes. Le filtrage est indispensable pour dédier une carte à une instance et en laisser d'autres libres.

Prochaines étapes

Sécuriser Incus Durcir isolation, projets et accès.

Gérer ses instances Manipuler conteneurs et VM.

Premiers pas avec Incus Les bases de la CLI.