ComfyUI-Youtu-VL 是为腾讯优图实验室推出的轻量级(4B参数)视觉语言模型定制的插件。它支持视觉接地、分割、深度估计及姿态估计,特别适合生成高质量提示词、打标及 OCR 任务。
项目地址:https://github.com/1038lab/ComfyUI-Youtu-VL

🛠 一、 安装指南
本项目提供两种安装方式,推荐使用管理器安装。
方法 1:通过 ComfyUI Manager(推荐)
- 启动 ComfyUI。
- 打开 Manager (管理器)。
- 点击 Custom Nodes Manager,搜索
ComfyUI Youtu-VL(发布者:1038lab)。 - 点击 Install 并重启 ComfyUI。
方法 2:手动安装
- 打开终端,进入你的 ComfyUI 插件目录:
cd ComfyUI/custom_nodes/ - 克隆仓库:
git clone https://github.com/1038lab/ComfyUI-Youtu-VL.git - 安装依赖:
cd ComfyUI-Youtu-VL pip install -r requirements.txt
💡 可选:启用 GGUF 支持(显存优化)
如果你希望在消费级显卡(6GB+)上获得更快的速度,建议安装 llama-cpp-python:
# 请根据你的 CUDA 版本替换 cu121 (例如 cu118)
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121
🧩 二、 核心节点介绍
插件提供两种主要的引擎节点,用户可根据硬件配置选择:
| 节点名称 | 引擎类型 | 特点 | 适用场景 |
|---|---|---|---|
| Youtu-VL (Standard) | Transformers | 高精度,支持 Flash Attention 2。 | 追求极致描述效果、科研实验。 |
| Youtu-VL (GGUF) | llama.cpp | 极速,低显存占用,支持 4-bit/8-bit。 | 消费级显卡、日常高频使用。 |
提示: 模型会在首次使用时自动下载至
models/LLM/Youtu-VL文件夹下。
🎮 三、 功能预设与应用
在节点设置中,你可以通过内置的 Preset Modes(预设模式) 快速执行任务:
| 预设模式 | 功能描述 |
|---|---|
| 📝 详细描述 | 生成长段落,涵盖光线、构图及主体细节(适合反推提示词)。 |
| 🏷️ 生成标签 | 创建逗号分隔的标签(Danbooru 风格,适合 LoRA 训练打标)。 |
| 📄 OCR 文本 | 自动读取并提取图像中的可见文字。 |
| 🎨 艺术风格 | 识别并描述作品的媒介、技法和艺术家风格。 |
| ❓ 视觉问答 | 通过自定义问题与图片“聊天”(如:问“图中人物穿什么颜色?”)。 |
🚧 四、 故障排除
- 找不到 GGUF 节点?
- 请检查
llama-cpp-python是否安装成功。
- 请检查
- 内存不足(OOM)?
- 请切换到 GGUF 节点,并选择
Q4_K_M或Q5等量化型号。
- 请切换到 GGUF 节点,并选择
- 找不到分割/深度节点?
- 目前这些功能仍处于测试阶段,位于插件的
Beta文件夹中。
- 目前这些功能仍处于测试阶段,位于插件的
以下是针对 ComfyUI-Youtu-VL 项目使用 GGUF 模型的详细步骤:
第一步:安装必要的 Python 依赖
要在 ComfyUI 中运行 GGUF 格式,您必须先安装 llama-cpp-python 库。
- 打开终端(cmd 或 PowerShell)并进入您的 ComfyUI python 环境。
- 根据您的显卡(CUDA版本)运行安装命令(参考上一轮文档):
# 示例:如果您使用的是 CUDA 12.1 pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121(如果您是 Mac 用户或使用其他 CUDA 版本,请替换 URL 中的cu121)
第二步:选择并下载模型文件
您不需要下载列表中的所有文件。根据您的显存大小,下载以下两个文件(主模型 + 视觉投影器):
1. 主模型(大脑 - 负责处理文本和逻辑):
- 推荐(平衡速度与质量):
Youtu-VL-4B-Instruct.Q4_K_M.gguf(约 3.09 GB) —— 适合 6GB-8GB 显存。 - 高性能(质量稍好):
Youtu-VL-4B-Instruct.Q5_K_M.gguf(约 3.54 GB) —— 适合 8GB+ 显存。 - 极致速度(质量较低):
Youtu-VL-4B-Instruct.Q3_K_M.gguf(约 2.6 GB) —— 适合低显存设备。
2. 视觉投影器(眼睛 - 负责看图):
- 必须下载:
Youtu-VL-4B-Instruct.mmproj-f16.gguf(892 MB) 或者mmproj-Q8_0.gguf(603 MB)。- 注意:通常视觉大模型(VLM)的 GGUF 版本需要这个
mmproj文件来处理图像输入。如果节点无法自动识别,请确保它与主模型在同一目录下。
- 注意:通常视觉大模型(VLM)的 GGUF 版本需要这个
第三步:文件放置位置
将下载好的 .gguf 文件移动到 ComfyUI 的模型目录下。
- 目标路径:
ComfyUI/models/LLM/
(如果LLM文件夹不存在,请手动创建一个)
第四步:在 ComfyUI 中加载
- 启动 ComfyUI。
- 加载 ComfyUI-Youtu-VL 的工作流。
- 找到 "Youtu-VL (GGUF)" 节点。
- 在
model_name(或类似选项)下拉菜单中,点击刷新,然后选择您刚刚下载的Youtu-VL-4B-Instruct.Q4_K_M.gguf文件。
总结
简单来说,“安装”就是:
pip install llama-cpp-python- 下载
Q4_K_M.gguf和mmproj-f16.gguf。 - 把它们扔进
ComfyUI/models/LLM/文件夹。
由于目前这个节点还是有问题,不能扫描全局模型。不过你可以使用它固定值的模型,开启魔法下载即可。
自己选择GGUF模型下载的,https://hf-mirror.com/mradermacher/Youtu-VL-4B-Instruct-GGUF/tree/main
使用我修改的代码。会员自提。
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

评论(0)