ComfyUI_TensorRT
ComfyUI_TensorRT节点通过集成NVIDIA TensorRT技术,为Stable Diffusion全系模型(含SDXL Turbo/SVD-XT等)提供GPU加速优化,支持动态/静态引擎构建,显著提升NVIDIA RTX™显卡的AI推理性能
comfyanonymous
v0.1.8
621 stars
Description
ComfyUI TensorRT 节点
增强 GPU 性能 该节点通过集成 NVIDIA TensorRT 技术,优化了 Stable Diffusion 在 NVIDIA RTX™ GPU 上的运行性能[5][8]。
支持模型
- Stable Diffusion 1.5/2.1/3.0
- SDXL 和 SDXL Turbo
- Stable Video Diffusion (SVD)
- Stable Video Diffusion-XT
- AuraFlow
- Flux
系统要求
- NVIDIA RTX™ 或 GeForce RTX™ GPU
- SDXL/SDXL Turbo:推荐 12GB 以上显存
- SVD:推荐 16GB 以上显存
- SVD-XT:需要 24GB 以上显存
- Flux:当前需要 24GB 显存
安装指南
推荐方法
使用 ComfyUI 管理工具 进行一键式安装[2][3]。
手动安装
cd custom_nodes
git clone https://github.com/comfyanonymous/ComfyUI_TensorRT
cd ComfyUI_TensorRT
pip install -r requirements.txt
技术原理
通过 TensorRT 实现 GPU 专项优化,可显著提升 AI 模型性能(平均推理耗时减少 50%)[5][6]。需针对具体 RTX GPU 生成优化引擎。
引擎类型
动态引擎
- 支持分辨率/批量大小的范围设置
- 在最优参数(opt)下达到峰值性能
- 需指定最小/最大参数
静态引擎
- 固定分辨率/批量大小
- 与动态引擎的最优参数性能相当
- 显存占用更低
注:通常推荐动态引擎;静态引擎适合固定工作流场景[8]
工作流操作说明
示例工作流文件位于 workflows 文件夹(将 .json 文件加载至 ComfyUI)。
创建 TensorRT 引擎
- 添加 Load Checkpoint 节点
- 连接以下任一节点:
- 静态模型 TensorRT 转换节点
- 动态模型 TensorRT 转换节点
- 将模型输出连接到转换节点
- 为引擎命名并添加 "tensorrt/" 前缀
- 点击 Queue Prompt 开始创建
- 转换节点在创建过程中会高亮显示
- 控制台显示进度详情
首次创建需 3-10 分钟(图像模型)或 10-25 分钟(SVD)。SVD-XT 可能需要 60 分钟[1]
使用 TensorRT 引擎
- 添加 TensorRT 加载器 节点
- 若未显示引擎,需刷新 ComfyUI(F5)
- 从 unet_name 下拉菜单中选择引擎:
- 动态引擎:
dyn-b-min-max-opt-h-min-max-opt-w-min-max-opt
- 静态引擎:
stat-b-opt-h-opt-w-opt
- 确保 model_type 与引擎类型匹配
- 连接原始 CLIP/VAE 组件;将 MODEL 路由至 Sampler
当前限制
- 暂不支持 ControlNet/LoRA(未来更新计划中)