Vidéo : Génération vidéo IA locale avec WAN 2.2 et ComfyUI

Gaetan Michel
il y a 2 jours
9 min de lecture

Créer une vidéo IA en local avec WAN 2.2 5B et ComfyUI avec une RTX 5070 Ti 12 Go VRAM

Dans cette vidéo, je vous montre comment générer une vidéo IA directement sur votre PC avec WAN 2.2 Ti2v 5B et ComfyUI, c’est-à-dire en mode texte vers vidéo.

L’objectif est simple : partir d’un prompt texte, créer un workflow clair dans ComfyUI, puis générer une courte vidéo réaliste en local, gratuitement, sans dépendre d’un service cloud ou d’un abonnement externe.

Pour cet exemple, j’utilise mon laptop OMEN 16 Max avec Intel Core Ultra 7, RTX 5070 Ti 12 Go VRAM, 32 Go RAM, SSD NMVe 1 To. Si vous disposez d'une autre carte graphique de type RTX, vous pouvez vérifier dans cet article si elle est compatible avec la génération de vidéos.

Vidéo : Génération vidéo IA locale avec WAN 2.2 5B et ComfyUI TI2V

Ce que vous allez apprendre dans cette vidéo

Dans ce tutoriel, vous allez découvrir :

comment utiliser WAN 2.2 5B dans ComfyUI
comment créer un workflow texte vers vidéo simple et efficace
comment organiser les principaux nodes nécessaires à la génération vidéo
comment utiliser un prompt positif et un prompt négatif
comment générer une vidéo IA localement sur votre PC
pourquoi l’IA locale peut être intéressante pour garder le contrôle sur ses modèles, ses fichiers et ses créations.

L’idée n’est pas de faire un workflow ultra complexe, mais plutôt de proposer une base propre, compréhensible et réutilisable pour débuter avec la génération vidéo IA.

Installation de ComfyUI

Pour suivre ce tutoriel, vous devez avoir ComfyUI installé sur votre ordinateur.

Si ce n’est pas encore le cas, vous pouvez consulter le guide complet disponible sur le site :

Guide complet pour installer ComfyUI

Une fois ComfyUI opérationnel, vous pourrez ensuite ajouter les modèles nécessaires pour utiliser WAN 2.2 5B et commencer à tester la génération vidéo IA en local.

Installation de WAN 2.2 5B TI2V

Pour utiliser WAN 2.2 5B Ti2v, le plus important est de télécharger les bons fichiers du modèle et de les placer dans les bons dossiers de ComfyUI.

Lien officiel Hugging Face du modèle :

https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B

Les fichiers doivent être placés dans le dossier 'Models' de votre installation ComfyUI :

Fichier à placer dans le dossier model_diffusion : Wan2.2_ti2v_5B_fp16.safetensors
Fichier à placer dans le dossier text_encoders : umt5_xxl_fp8_e4m3fn.safetensors
Fichier à placer dans le dossier vae : wan2.2_vae.safetensors

Prérequis recommandés

Avant de lancer la génération vidéo avec WAN 2.2 5B, il est recommandé d’avoir :

un PC équipé d’une carte graphique NVIDIA RTX ou équivalent très puissant
ComfyUI installé et fonctionnel
les fichiers du modèle WAN 2.2 5B TI2V
suffisamment d’espace disque disponible
un peu de patience, parce que la vidéo IA en local fait vite transpirer le GPU comme un radiateur en plein mois d’août.

WAN 2.2 5B reste plus accessible que certains modèles vidéo très lourds, mais la génération vidéo IA demande tout de même plus de ressources que la simple génération d’image.

Exemple utilisé dans la vidéo

Dans cette vidéo, l’exemple généré met en scène un grizzly géant sortant lentement d’une forêt de pins enneigée.

Prompt positif

A giant grizzly bear slowly emerging from a snowy pine forest, thick fur covered in snow, falling snow, cold misty atmosphere, realistic wildlife scene, cinematic lighting, the bear walking forward through deep snow, high quality, smooth motion

Prompt négatif

blurry, low quality, distorted bear, extra limbs, bad anatomy, deformed face, unrealistic fur, cartoon, oversaturated, flickering, unstable motion, duplicated animals, text artifacts, watermark

Ce type de prompt permet de guider le modèle vers une scène réaliste, avec une ambiance froide, de la neige, une composition cinématographique et un mouvement fluide.

Le prompt négatif sert à limiter les défauts classiques de la vidéo IA : flou, anatomie déformée, mouvement instable, doublons d’animaux, artefacts ou watermark.

Ce que montre concrètement la vidéo

Dans le tutoriel, vous verrez comment mettre en place une base de workflow pour générer une vidéo avec WAN 2.2 5B dans ComfyUI.

L’objectif est de montrer une méthode simple pour comprendre la logique générale :

charger le modèle WAN 2.2 5B
ajouter le prompt positif
ajouter le prompt négatif
régler les paramètres de génération
lancer le calcul
récupérer la vidéo finale

Ce workflow peut ensuite servir de base pour tester d’autres prompts, d’autres scènes, d’autres durées ou d’autres réglages.

https://www.youtube.com/watch?v=HZ_GpOX_5cg

Quelques contenus utiles pour aller plus loin :

🔹 installation de ComfyUI pour débutants

🔹 comparatif des modèles de génération vidéo IA

🔹 installation et utilisation de WAN dans ComfyUI

🔹 choix d’une carte graphique pour l’IA locale

🔹 workflows ComfyUI SDXL simples pour débuter

🔹 guides sur WAN, LTX Video, CogVideoX et Animatediff

Conclusion

WAN 2.2 5B avec ComfyUI permet de passer de bons moments à découvrir la génération vidéo IA locale.

Ce tutoriel s’adresse surtout aux débutants qui veulent comprendre comment transformer un simple texte en vidéo, sans forcément partir tout de suite sur des workflows énormes ou des configurations impossibles à maintenir.

La génération vidéo IA locale demande encore de la puissance, du temps et quelques essais, mais les résultats deviennent de plus en plus accessibles. Avec un workflow propre, un bon prompt et un peu de méthode, on peut déjà créer des vidéos impressionnantes directement depuis son PC.

FAQ – Génération vidéo IA locale avec WAN 2.2 5B et ComfyUI

Qu’est-ce que WAN 2.2 5B ?

WAN 2.2 5B est un modèle de génération vidéo IA capable de créer une vidéo à partir d’un prompt. Il peut être utilisé dans ComfyUI avec un workflow adapté pour transformer une description textuelle en courte séquence vidéo.

Le “5B” fait référence à la taille du modèle, avec environ 5 milliards de paramètres. C’est un modèle intéressant pour découvrir la vidéo IA locale, car il reste plus accessible que certains modèles beaucoup plus lourds.

Que signifie TI2V dans ComfyUI ?

TI2V signifie généralement Text/Image to Video, c’est-à-dire une génération vidéo pouvant utiliser du texte et/ou une image comme point de départ selon le workflow utilisé.

Dans le cadre de cet article et de cette vidéo, l’objectif principal est de montrer une utilisation orientée texte vers vidéo, en partant d’un prompt pour générer une courte vidéo dans ComfyUI.

Peut-on générer une vidéo IA uniquement avec du texte ?

Oui, c’est justement l’un des intérêts de WAN 2.2 5B. Avec un prompt bien rédigé, il est possible de décrire une scène, une ambiance, un sujet, un mouvement et un style visuel pour obtenir une vidéo générée par IA.

Par exemple, on peut demander un grizzly qui avance dans une forêt enneigée, avec une lumière cinématographique, de la neige qui tombe et une atmosphère froide. Le modèle va ensuite essayer de transformer cette description en séquence vidéo.

Faut-il une grosse carte graphique pour utiliser WAN 2.2 5B ?

Une carte graphique NVIDIA RTX est fortement recommandée pour obtenir de meilleures performances dans ComfyUI. La génération vidéo IA est beaucoup plus gourmande que la génération d’image classique.

WAN 2.2 5B reste plus accessible que certains modèles vidéo très lourds, mais il faut tout de même prévoir une configuration sérieuse, suffisamment de VRAM, de RAM et d’espace disque. Sur une petite configuration, cela peut fonctionner avec des réglages adaptés, mais les temps de génération seront plus longs.

Peut-on utiliser WAN 2.2 5B sans cloud ?

Oui. L’un des grands avantages de ComfyUI et de l’IA locale, c’est que vous pouvez générer vos vidéos directement sur votre PC.

Une fois les modèles téléchargés et installés, la génération se fait localement. Vos prompts, vos images, vos vidéos et vos essais restent sur votre machine. C’est particulièrement intéressant pour garder le contrôle sur ses fichiers et éviter de dépendre d’un service en ligne.

Quelle est la différence entre ComfyUI et un générateur vidéo IA en ligne ?

Un générateur vidéo IA en ligne est souvent plus simple à utiliser : on écrit un prompt, on clique sur un bouton, et le service s’occupe du reste.

ComfyUI demande un peu plus de mise en place, mais offre beaucoup plus de contrôle. Vous pouvez modifier les nodes, régler les paramètres, tester différents modèles, sauvegarder vos workflows et comprendre précisément comment la génération fonctionne.

C’est moins “bouton magique”, mais beaucoup plus flexible. Le bouton magique, lui, est souvent accompagné d’un abonnement magique aussi.

Où télécharger officiellement WAN 2.2 TI2V 5B ?

Le modèle WAN 2.2 TI2V 5B est disponible officiellement sur Hugging Face à cette adresse :

https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B

Il est recommandé de toujours télécharger les modèles depuis une source officielle ou reconnue afin d’éviter les fichiers modifiés, incomplets ou mal documentés.

Où placer les fichiers WAN 2.2 5B dans ComfyUI ?

L’emplacement exact dépend du workflow et des nodes utilisés. En général, les fichiers peuvent être répartis dans différents dossiers de ComfyUI, notamment les dossiers dédiés aux modèles vidéo, aux checkpoints, aux encodeurs texte, aux VAE ou aux fichiers spécifiques utilisés par les custom nodes.

Après avoir placé les fichiers dans les bons dossiers, il faut redémarrer ComfyUI pour que les modèles soient correctement détectés.

Pourquoi utiliser un prompt négatif avec WAN 2.2 5B ?

Le prompt négatif permet d’indiquer au modèle ce que l’on veut éviter dans la vidéo.

Par exemple : flou, mauvaise qualité, anatomie déformée, mouvement instable, doublons, artefacts de texte ou watermark. En génération vidéo IA, ces défauts peuvent apparaître assez facilement, surtout sur les mouvements complexes ou les sujets organiques comme les animaux.

Le prompt négatif ne garantit pas un résultat parfait, mais il aide à orienter le modèle dans la bonne direction.

Pourquoi ma vidéo IA est floue ou instable ?

Une vidéo IA peut être floue ou instable pour plusieurs raisons : prompt trop vague, mauvais réglages, résolution trop élevée pour la configuration, nombre de steps insuffisant, modèle mal chargé ou workflow mal adapté.

La génération vidéo est encore plus sensible que la génération d’image. Il faut souvent faire plusieurs essais avant d’obtenir un résultat propre. Le secret, c’est de modifier un paramètre à la fois, sinon on finit vite par accuser son PC, son workflow, son chat, puis l’univers entier.

Peut-on utiliser WAN 2.2 5B pour faire des vidéos réalistes ?

Oui, WAN 2.2 5B peut produire des vidéos réalistes, surtout avec un prompt bien construit. Il faut décrire clairement le sujet, l’environnement, la lumière, l’ambiance, le mouvement et le style visuel attendu.

Pour une scène réaliste, il est conseillé d’utiliser des termes comme “realistic wildlife scene”, “cinematic lighting”, “high quality”, “natural motion” ou “smooth motion”, tout en ajoutant un prompt négatif pour limiter les défauts.

ComfyUI est-il adapté aux débutants ?

Oui, à condition d’accepter une petite phase d’apprentissage. ComfyUI peut sembler impressionnant au début avec ses nodes, ses connexions et ses workflows, mais c’est aussi ce qui le rend très puissant.

Pour débuter, le plus simple est d’utiliser un workflow déjà prêt, puis de comprendre progressivement le rôle de chaque bloc : chargement du modèle, prompt positif, prompt négatif, sampler, décodage vidéo et export final.

Peut-on réutiliser le même workflow avec d’autres prompts ?

Oui. Une fois le workflow WAN 2.2 5B configuré dans ComfyUI, vous pouvez le réutiliser avec d’autres prompts.

Vous pouvez changer le sujet, le décor, l’ambiance, la lumière ou le type de mouvement. Par exemple, remplacer un grizzly dans une forêt enneigée par une voiture futuriste sous la pluie, un dragon au-dessus d’une montagne ou une scène de science-fiction.

C’est l’un des grands avantages de ComfyUI : un bon workflow peut devenir une base de travail réutilisable.

Combien de temps faut-il pour générer une vidéo avec WAN 2.2 5B ?

Le temps de génération dépend fortement de votre carte graphique, de la résolution, de la durée de la vidéo, du nombre d’images, du nombre de steps et du workflow utilisé.

Sur une bonne carte NVIDIA RTX, les temps peuvent rester raisonnables pour des tests courts. Sur une configuration plus limitée, la génération peut prendre beaucoup plus de temps. La vidéo IA locale reste un domaine gourmand : ici, le GPU ne travaille pas, il part en expédition polaire avec le grizzly.

WAN 2.2 5B est-il meilleur que LTX Video ou CogVideoX ?

Il n’y a pas de réponse unique. Chaque modèle vidéo IA a ses forces et ses limites.

WAN 2.2 5B peut être intéressant pour tester la génération vidéo locale avec ComfyUI, tandis que LTX Video ou CogVideoX peuvent donner de meilleurs résultats selon les scènes, les mouvements, la configuration matérielle ou le workflow utilisé.

Le meilleur choix dépend surtout de votre PC, du type de vidéo que vous voulez créer et du temps que vous acceptez de passer à tester les réglages.

Peut-on créer des vidéos IA gratuitement avec ComfyUI ?

Oui, ComfyUI est gratuit et open source. Les modèles comme WAN 2.2 5B peuvent être téléchargés séparément selon leurs conditions d’utilisation.

L’avantage est que vous ne payez pas à chaque génération. En revanche, vous utilisez votre propre matériel : carte graphique, électricité, stockage et temps de calcul. L’IA locale n’est donc pas “gratuite” au sens strict, mais elle permet d’éviter les abonnements et les crédits des plateformes cloud.

Pourquoi choisir l’IA locale pour générer des vidéos ?

L’IA locale permet de garder le contrôle sur ses outils, ses fichiers et ses créations. Vous pouvez tester librement vos workflows, conserver vos prompts, travailler hors ligne selon votre installation et éviter de dépendre totalement d’une plateforme externe.

Pour apprendre, expérimenter et créer ses propres vidéos IA, c’est une approche très intéressante. Elle demande plus d’efforts au départ, mais elle offre aussi plus de liberté.

Où trouver d’autres tutoriels sur ComfyUI et l’IA locale ?

Vous pouvez retrouver d’autres guides, tests et tutoriels sur IA Locale Facile :

https://www.ia-locale-facile.fr

Le site propose des contenus autour de ComfyUI, WAN, LTX Video, CogVideoX, SDXL, Flux, Ollama, Docker, Open WebUI, NVIDIA RTX, Intel Arc et plus largement l’IA locale sur PC.

Tutoriels disponibles sur IA Locale Facile : ComfyUI, WAN, CogVideoX, LTX Video, SDXL, Flux, Ollama, Docker, RTX & Intel Arc.