Vidéo : WAN 2.1 Light X2V sur ComfyUI — Créer une vidéo IA à partir d’une image

Gaetan Michel
il y a 2 jours
6 min de lecture

Créer une vidéo IA locale à partir d’une simple image avec WAN 2.1 Light X2V

Dans cette nouvelle vidéo, je vous montre comment utiliser WAN 2.1 Light X2V dans ComfyUI pour transformer une image en vidéo directement sur votre PC.

L’objectif est simple : partir d’une image fixe puis utiliser un workflow I2V / Image vers Vidéo pour générer une courte animation en local, sans service cloud, sans abonnement, et avec un workflow pensé pour les configurations PC les plus modestes.

WAN 2.1 est une famille de modèles vidéo open source capable de faire de la génération texte vers vidéo et image vers vidéo, avec des versions plus légères pensées pour rendre la génération vidéo IA plus accessible sur du matériel grand public.

Vidéo : WAN 2.1 Light X2V sur ComfyUI — Créer une vidéo IA à partir d’une image

Ce que vous allez voir dans la vidéo

Dans cette vidéo, je vous montre rapidement :

comment préparer ComfyUI pour un workflow vidéo
comment charger une image de départ
comment utiliser le modèle WAN 2.1 Light X2V
comment relier les nodes principaux du workflow
comment générer une vidéo à partir d’une image
pourquoi cette version Light est intéressante pour les PC moins puissants
quels réglages surveiller pour éviter de faire fondre votre GPU

L’idée n’est pas seulement de copier un workflow tout fait. Le but est surtout de comprendre la logique : une image de départ, un modèle vidéo, un prompt, un sampler vidéo, puis une sortie MP4.

Pourquoi utiliser WAN 2.1 Light X2V ?

La génération vidéo IA locale est beaucoup plus lourde que la génération d’images. Même avec une bonne carte graphique, les modèles vidéo demandent beaucoup de VRAM, de patience et parfois un peu de diplomatie avec Windows.

WAN 2.1 Light X2V est intéressant parce qu’il vise justement à rendre l’Image vers Vidéo plus accessible. Le principe est de partir d’une image existante, puis de générer le mouvement à partir de cette base visuelle.

C’est très pratique pour :

animer une image IA déjà générée
créer une courte scène cinématique
tester la vidéo IA sans lancer un modèle trop lourd
travailler avec une configuration plus modeste
produire rapidement des exemples pour un site, une vidéo YouTube ou un portfolio

Dans l’exemple de la vidéo, on part d’une image de grizzly dans une forêt enneigée, puis le workflow génère une vidéo courte à partir de cette image.

Installer ComfyUI

Avant d’utiliser WAN 2.1, il faut d’abord avoir une installation fonctionnelle de ComfyUI.

ComfyUI est une interface nodale open source très utilisée pour l’IA locale. Elle permet de créer des workflows avancés pour l’image, la vidéo, les LoRA, ControlNet, Flux, WAN, AnimateDiff et beaucoup d’autres outils.

Méthode simple pour débuter

Pour Windows, le plus simple est généralement de passer par :

la version Desktop officielle de ComfyUI ;
ou une installation manuelle avec Python, Git et un environnement propre.

Lien officiel : ComfyUI — site officiel / téléchargement

Lien GitHub officiel : ComfyUI sur GitHub

Si vous débutez, je vous conseille de commencer par mon guide dédié :

Quelle version de ComfyUI choisir sur Windows en 2026 ?

Vous pouvez aussi consulter :

Créer un workflow txt2img sur ComfyUI : guide complet débutant

ComfyUI Manager : installer des nodes sans casser son installation

Mini-guide : installer WAN 2.1 dans ComfyUI

WAN 2.1 peut être utilisé dans ComfyUI avec différents fichiers : modèle de diffusion, VAE, text encoder, workflows et parfois des versions optimisées ou distillées.

Pour les modèles officiels, vous pouvez consulter :

Où placer les fichiers WAN dans ComfyUI ?

En général, la structure ressemble à ceci :

ComfyUI/
└── models/
    ├── diffusion_models/
    │   └── votre_modele_wan_2.1_light_x2v.safetensors
    │
    ├── text_encoders/
    │   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
    │
    ├── vae/
        └── wan_2.1_vae.safetensors

Selon le workflow utilisé, certains fichiers peuvent varier. Il faut toujours vérifier les indications du créateur du workflow ou du modèle.

Télécharger WAN 2.1 Light X2V V1.0 et V2.0

Pour cette vidéo, le workflow utilise une version WAN 2.1 Light X2V, pensée pour accélérer la génération vidéo et rendre l’I2V plus accessible.

Vous pouvez récupérer les modèles LightX2V ici :

LightX2V — collection WAN 2.1 sur Hugging Face

À récupérer :

WAN 2.1 Light X2V V1.0
WAN 2.1 Light X2V V2.0

Important : vérifiez toujours que le modèle correspond bien à votre workflow : I2V, T2V, 480P, 720P, LoRA, diffusion model, GGUF ou safetensors. Un mauvais fichier au mauvais endroit, et ComfyUI vous répondra avec une magnifique erreur rouge, façon sapin de Noël mais sans la magie.

Workflow utilisé dans la vidéo

Le workflow présenté dans cette vidéo suit une logique simple :

Image de départ
↓
Prompt / description de la scène
↓
Chargement du modèle WAN 2.1 Light X2V
↓
KSampler vidéo
↓
Décodage vidéo
↓
Export MP4

Dans mon exemple, le prompt utilisé tourne autour d’une scène cinématique avec un grizzly dans une forêt enneigée.

Exemple de prompt :

Giant grizzly bear walking through a snowy forest, cinematic lighting, realistic fur, snow falling, detailed environment, natural movement, 4k

L’image de départ sert de base visuelle, puis le modèle génère une courte animation à partir de cette image.

Conseils de réglages pour débuter

Pour commencer, je conseille de tester avec des réglages modestes :

durée courte
nombre d’images limité
steps réduits
génération en 480P avant de viser plus haut
fermeture des logiciels inutiles
surveillance de la VRAM

La vidéo IA locale est exigeante. Il vaut mieux réussir une petite vidéo propre que demander une scène de 30 secondes en 4K avec caméra dynamique, ours, neige, forêt, particules, réalisme cinéma et finir avec un PC qui souffle comme une CTA en défaut pression.

https://www.youtube.com/watch?v=pcM2cN-bXQM

À qui s’adresse cette vidéo ?

Cette vidéo s’adresse surtout à ceux qui veulent :

débuter la vidéo IA locale
comprendre l’Image vers Vidéo dans ComfyUI
tester WAN sans configuration monstrueuse
créer des vidéos à partir de leurs propres images
éviter les solutions cloud payantes
apprendre progressivement les workflows vidéo IA

C’est aussi un bon point d’entrée pour ceux qui utilisent déjà ComfyUI pour générer des images et veulent passer à l’étape suivante : faire bouger leurs créations.

Ressources utiles

Articles IA Locale Facile

Liens officiels

FAQ — WAN 2.1 Light X2V avec ComfyUI

Qu’est-ce que WAN 2.1 Light X2V ?

WAN 2.1 Light X2V est une version optimisée autour de WAN 2.1 qui permet de générer des vidéos à partir d’une image. Le but est de rendre l’Image vers Vidéo plus rapide et plus accessible qu’avec les modèles vidéo les plus lourds.

Quelle est la différence entre I2V et T2V ?

I2V signifie Image to Video : on part d’une image pour créer une vidéo.T2V signifie Text to Video : on part uniquement d’un prompt texte pour créer une vidéo.

Dans cette vidéo, on utilise surtout le mode I2V, donc image vers vidéo.

Est-ce que WAN 2.1 Light X2V fonctionne sur une petite configuration ?

Il est plus accessible que les workflows WAN les plus lourds, mais la vidéo IA reste exigeante. Une carte graphique NVIDIA avec suffisamment de VRAM est fortement recommandée. Avec une configuration modeste, il faut réduire la résolution, la durée et le nombre de steps.

Où faut-il placer les fichiers WAN dans ComfyUI ?

Les fichiers principaux se placent généralement dans les dossiers suivants :

ComfyUI/models/diffusion_models/
ComfyUI/models/text_encoders/
ComfyUI/models/vae/
ComfyUI/models/clip_vision/

Le placement exact dépend du workflow et du type de modèle téléchargé.

Faut-il installer ComfyUI Manager ?

Oui, c’est fortement recommandé. ComfyUI Manager facilite l’installation des custom nodes nécessaires aux workflows avancés, notamment pour la vidéo IA.

Pourquoi mon workflow WAN affiche des erreurs rouges ?

Les causes les plus fréquentes sont :

un fichier modèle manquant ;
un fichier placé dans le mauvais dossier ;
un custom node non installé ;
ComfyUI pas à jour ;
une dépendance Python absente ;
un modèle incompatible avec le workflow utilisé.

Quelle version choisir : WAN 2.1 classique ou WAN 2.1 Light X2V ?

Pour débuter ou tester sur une configuration plus limitée, WAN 2.1 Light X2V est souvent plus pratique. Pour viser la meilleure qualité possible, les versions WAN plus lourdes peuvent donner de meilleurs résultats, mais elles demandent plus de puissance.

Peut-on générer une vidéo à partir d’une image créée avec SDXL ou Flux ?

Oui. C’est même l’un des usages les plus intéressants. Vous pouvez générer une belle image dans ComfyUI avec SDXL, Flux ou un autre modèle, puis l’utiliser comme image de départ dans un workflow WAN I2V.

La vidéo générée est-elle vraiment 100 % locale ?

Oui, si ComfyUI, les modèles et les fichiers nécessaires sont installés sur votre PC, la génération se fait localement. Aucun service cloud n’est nécessaire.

Est-ce que WAN 2.1 Light X2V est idéal pour YouTube ?

Oui, pour créer des démonstrations, des plans courts, des effets visuels, des animations d’images ou des exemples de génération vidéo IA locale. Pour une production longue, il faudra enchaîner plusieurs clips et faire un montage propre dans un logiciel vidéo.