Créer un workflow txt2img sur ComfyUI : guide complet débutant

Gaetan Michel
8 mai
5 min de lecture

ComfyUI est l’un des meilleurs outils pour générer des images avec l’IA en local. Contrairement à une interface classique avec quelques boutons, ComfyUI fonctionne avec des nodes, c’est-à-dire des blocs reliés entre eux. Au début, cela ressemble un peu à un tableau électrique d'une centrale nucléaire un vendredi soir, mais dès qu’on comprend les liaisons, tout devient logique.

Le workflow txt2img permet de créer une image à partir d’un simple texte. On écrit un prompt, on choisit un modèle, on règle quelques paramètres, puis ComfyUI génère l’image.

ComfyUI est open source, extensible, et permet d’installer des milliers d’extensions communautaires. Le site officiel indique qu’il existe plus de 5 000 extensions et 60 000 nodes disponibles pour personnaliser les workflows. (Comfy)

Créer un workflow txt2img sur ComfyUI : guide complet débutant

Téléchargements nécessaires

Pour démarrer proprement sur Windows, il faut prévoir :

Élément	Utilité
ComfyUI	Interface principale de génération
Python / version portable	Nécessaire au fonctionnement de ComfyUI
Git	Pratique pour installer les custom nodes
NVIDIA Driver / AMD / Intel selon GPU	Accélération GPU
Checkpoints	Modèles principaux de génération
VAE	Amélioration du décodage de l’image
LoRA	Style, personnage, vêtement, pose, etc.
ComfyUI Manager	Installation facile des custom nodes

La version portable officielle de ComfyUI pour Windows intègre son propre Python et peut fonctionner avec GPU NVIDIA ou CPU, ce qui simplifie beaucoup l’installation pour débutant. (ComfyUI Documentation)Pour les installations plus avancées, ComfyUI indique aussi que l’installation manuelle peut prendre en charge différents types de GPU : NVIDIA, AMD, Intel, Apple Silicon, etc. (GitHub)

Où placer les modèles dans ComfyUI ?

Les modèles ne sont généralement pas fournis directement avec ComfyUI. Il faut les télécharger puis les placer dans les bons dossiers. La documentation officielle précise que les checkpoints, VAE, LoRA, ControlNet et upscalers se rangent dans ComfyUI/models/, puis se chargent avec les nodes correspondants. (ComfyUI Documentation)

Exemple :

ComfyUI/
 └── models/
     ├── checkpoints/
     ├── vae/
     ├── loras/
     ├── controlnet/
     ├── upscale_models/
     └── embeddings/

À retenir :

Type de fichier	Dossier
Checkpoint .safetensors	models/checkpoints
VAE	models/vae
LoRA	models/loras
ControlNet	models/controlnet
Upscaler	models/upscale_models
Embedding / textual inversion	models/embeddings

Le workflow txt2img de base

Un workflow txt2img simple contient généralement ces nodes :

Load Checkpoint
CLIP Text Encode — prompt positif
CLIP Text Encode — prompt négatif
Empty Latent Image
KSampler
VAE Decode
Save Image

Le principe est simple :

Checkpoint + Prompt + Image vide
        ↓
     KSampler
        ↓
    VAE Decode
        ↓
    Save Image

Les liaisons essentielles

Dans ComfyUI, chaque couleur ou type de sortie a une logique. Il faut connecter les bons ports entre eux.

Sortie	Va vers	Rôle
MODEL du Checkpoint	model du KSampler	Modèle de génération
CLIP du Checkpoint	clip des prompts	Compréhension du texte
VAE du Checkpoint	vae du VAE Decode	Décodage final
Prompt positif	positive du KSampler	Ce que l’image doit contenir
Prompt négatif	negative du KSampler	Ce qu’il faut éviter
Empty Latent Image	latent_image du KSampler	Base vide de l’image
KSampler LATENT	VAE Decode samples	Image latente à décoder
VAE Decode IMAGE	Save Image images	Image finale

Réglages importants du KSampler

Le KSampler est le cœur du workflow. C’est lui qui transforme le bruit de départ en image.

Réglage	Explication	Conseil débutant
Seed	Numéro de génération	-1 pour varier, fixe pour reproduire
Steps	Nombre d’étapes de calcul	20 à 35 pour commencer
CFG	Force du prompt	5 à 8 souvent efficace
Sampler	Méthode de génération	DPM++ 2M, Euler, DPM++ SDE
Scheduler	Gestion du bruit	Karras souvent très bon
Denoise	Force de transformation	1.00 en txt2img pur
Width / Height	Taille de l’image	SDXL : 1024×1024, SD1.5 : 512×512

Astuce pro : ne change jamais 10 réglages à la fois. Sinon tu ne sauras pas lequel a amélioré ou détruit l’image. C’est comme régler une chaudière avec un bandeau sur les yeux : sportivement discutable.

Exemple de prompt positif

portrait photo réaliste d’un homme en tenue de football, stade moderne, lumière cinématique, détails du visage, profondeur de champ, haute qualité, ultra realistic, sharp focus

Exemple de prompt négatif

blurry, low quality, bad hands, extra fingers, distorted face, watermark, text, logo, deformed body, oversaturated

Pour un rendu réaliste, il vaut mieux un prompt clair et précis qu’un pavé de 40 lignes. ComfyUI aime les consignes propres.

Ajouter un LoRA dans le workflow

Un LoRA permet d’ajouter un style, un personnage, une tenue, une pose ou un effet sans changer complètement de checkpoint. La documentation officielle explique que les LoRA, y compris LyCORIS, LoHa, LoKr ou LoCon, s’utilisent via un node Load LoRA. (ComfyUI Documentation)

Workflow avec LoRA :

Load Checkpoint
      ↓
Load LoRA
      ↓
KSampler

Le node LoRA doit recevoir :

Entrée LoRA	Source
model	Sortie MODEL du checkpoint
clip	Sortie CLIP du checkpoint

Et il renvoie :

Sortie LoRA	Destination
MODEL	KSampler
CLIP	Prompts

Réglage conseillé :

Type de LoRA	Force
Style léger	0.4 à 0.7
Personnage	0.7 à 1.0
Pose / concept fort	0.8 à 1.2

Custom nodes utiles pour améliorer ComfyUI

Le plus simple est d’installer ComfyUI Manager, qui permet d’installer, supprimer, désactiver ou activer des custom nodes directement depuis ComfyUI. (GitHub)La documentation officielle donne aussi une méthode d’installation manuelle des custom nodes via téléchargement ZIP, à copier dans ComfyUI/custom_nodes/. (ComfyUI Documentation)

Custom nodes intéressants :

Custom node	Utilité
ComfyUI Manager	Installer et gérer les extensions
ComfyUI Impact Pack	Détail du visage, détection, amélioration
rgthree-comfy	Nodes pratiques, workflow plus lisible
ComfyUI Essentials	Nodes utiles pour workflows propres
WAS Node Suite	Outils image, texte, masques
Efficiency Nodes	Workflow plus compact
ControlNet Auxiliary Preprocessors	OpenPose, depth, canny, etc.
IPAdapter Plus	Référence d’image, style ou visage
Ultimate SD Upscale	Upscale par tuiles
ComfyUI-Custom-Scripts	Interface et confort d’utilisation

Les efficiency nodes peuvent regrouper plusieurs fonctions comme le chargement du checkpoint, du VAE, du prompt et des LoRA dans un seul node, ce qui rend certains workflows beaucoup plus compacts. (BentoML)

Astuces de pro pour un meilleur txt2img

1. Choisir le bon checkpoint

Pour du réalisme : checkpoint réaliste.Pour du manga : checkpoint anime/manga.Pour du design produit : checkpoint polyvalent ou SDXL propre.

Un mauvais checkpoint ne sera jamais complètement sauvé par un bon prompt.

2. Utiliser une résolution cohérente

Pour SDXL :

1024×1024
832×1216
1216×832

Pour SD 1.5 :

512×512
512×768
768×512

3. Garder le même seed pour comparer

Quand tu testes un sampler ou un CFG, garde le même seed. Sinon tu compares deux images différentes, pas deux réglages.

4. Faire une génération simple avant d’ajouter les options

Commence par :

Checkpoint + Prompt + KSampler + VAE Decode + Save

Puis ajoute :

LoRA
ControlNet
Upscale
Face detailer
IPAdapter

Un workflow trop chargé dès le début devient vite une usine à gaz. Très joli sur l’écran, très pénible à dépanner.

5. Sauvegarder ses workflows

Quand une image est réussie, sauvegarde le workflow. Dans ComfyUI, les images générées peuvent souvent contenir les métadonnées du workflow, ce qui permet de retrouver les réglages utilisés.

Schéma récapitulatif complet du workflow txt2img

[models/checkpoints]
        ↓
[Load Checkpoint]
   ├── MODEL ───────────────→ [KSampler: model]
   ├── CLIP ─────→ [CLIP Text Encode positif]
   ├── CLIP ─────→ [CLIP Text Encode négatif]
   └── VAE ─────────────────→ [VAE Decode: vae]

[CLIP Text Encode positif]
        ↓ CONDITIONING
[KSampler: positive]

[CLIP Text Encode négatif]
        ↓ CONDITIONING
[KSampler: negative]

[Empty Latent Image]
        ↓ LATENT
[KSampler: latent_image]

[KSampler]
        ↓ LATENT
[VAE Decode]
        ↓ IMAGE
[Save Image]

Avec LoRA :

[Load Checkpoint]
   ├── MODEL → [Load LoRA] → MODEL → [KSampler]
   └── CLIP  → [Load LoRA] → CLIP  → [Prompts]

Conclusion

Créer un workflow txt2img sur ComfyUI devient simple quand on comprend la logique des nodes :

Modèle + Texte + Latent vide → Génération → Décodage → Image

Le vrai avantage de ComfyUI, c’est qu’on peut commencer très simplement, puis construire progressivement des workflows professionnels avec LoRA, ControlNet, IPAdapter, upscaling et face detailer.

Pour un débutant, le meilleur conseil est simple : fais d’abord fonctionner un workflow minimal. Ensuite seulement, ajoute les options une par une. ComfyUI récompense la méthode. Et comme souvent en IA locale, celui qui range bien ses dossiers gagne déjà la moitié du combat.