ComfyUI-Youtu-VL 是为腾讯优图实验室推出的轻量级(4B参数)视觉语言模型定制的插件。它支持视觉接地、分割、深度估计及姿态估计,特别适合生成高质量提示词、打标及 OCR 任务。

项目地址:https://github.com/1038lab/ComfyUI-Youtu-VL

🛠 一、 安装指南

本项目提供两种安装方式,推荐使用管理器安装。

方法 1:通过 ComfyUI Manager(推荐)

  1. 启动 ComfyUI。
  2. 打开 Manager (管理器)
  3. 点击 Custom Nodes Manager,搜索 ComfyUI Youtu-VL(发布者:1038lab)。
  4. 点击 Install 并重启 ComfyUI。

方法 2:手动安装

  1. 打开终端,进入你的 ComfyUI 插件目录:cd ComfyUI/custom_nodes/
  2. 克隆仓库:git clone https://github.com/1038lab/ComfyUI-Youtu-VL.git
  3. 安装依赖:cd ComfyUI-Youtu-VL pip install -r requirements.txt

💡 可选:启用 GGUF 支持(显存优化)

如果你希望在消费级显卡(6GB+)上获得更快的速度,建议安装 llama-cpp-python

# 请根据你的 CUDA 版本替换 cu121 (例如 cu118)
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121

🧩 二、 核心节点介绍

插件提供两种主要的引擎节点,用户可根据硬件配置选择:

节点名称引擎类型特点适用场景
Youtu-VL (Standard)Transformers高精度,支持 Flash Attention 2。追求极致描述效果、科研实验。
Youtu-VL (GGUF)llama.cpp极速,低显存占用,支持 4-bit/8-bit。消费级显卡、日常高频使用。

提示: 模型会在首次使用时自动下载至 models/LLM/Youtu-VL 文件夹下。


🎮 三、 功能预设与应用

在节点设置中,你可以通过内置的 Preset Modes(预设模式) 快速执行任务:

预设模式功能描述
📝 详细描述生成长段落,涵盖光线、构图及主体细节(适合反推提示词)。
🏷️ 生成标签创建逗号分隔的标签(Danbooru 风格,适合 LoRA 训练打标)。
📄 OCR 文本自动读取并提取图像中的可见文字。
🎨 艺术风格识别并描述作品的媒介、技法和艺术家风格。
❓ 视觉问答通过自定义问题与图片“聊天”(如:问“图中人物穿什么颜色?”)。

🚧 四、 故障排除

  • 找不到 GGUF 节点?
    • 请检查 llama-cpp-python 是否安装成功。
  • 内存不足(OOM)?
    • 请切换到 GGUF 节点,并选择 Q4_K_M 或 Q5 等量化型号。
  • 找不到分割/深度节点?
    • 目前这些功能仍处于测试阶段,位于插件的 Beta 文件夹中。

以下是针对 ComfyUI-Youtu-VL 项目使用 GGUF 模型的详细步骤:

第一步:安装必要的 Python 依赖

要在 ComfyUI 中运行 GGUF 格式,您必须先安装 llama-cpp-python 库。

  1. 打开终端(cmd 或 PowerShell)并进入您的 ComfyUI python 环境。
  2. 根据您的显卡(CUDA版本)运行安装命令(参考上一轮文档):# 示例:如果您使用的是 CUDA 12.1 pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121(如果您是 Mac 用户或使用其他 CUDA 版本,请替换 URL 中的 cu121)

第二步:选择并下载模型文件

您不需要下载列表中的所有文件。根据您的显存大小,下载以下两个文件(主模型 + 视觉投影器):

1. 主模型(大脑 - 负责处理文本和逻辑):

  • 推荐(平衡速度与质量): Youtu-VL-4B-Instruct.Q4_K_M.gguf (约 3.09 GB) —— 适合 6GB-8GB 显存。
  • 高性能(质量稍好): Youtu-VL-4B-Instruct.Q5_K_M.gguf (约 3.54 GB) —— 适合 8GB+ 显存。
  • 极致速度(质量较低): Youtu-VL-4B-Instruct.Q3_K_M.gguf (约 2.6 GB) —— 适合低显存设备。

2. 视觉投影器(眼睛 - 负责看图):

  • 必须下载:Youtu-VL-4B-Instruct.mmproj-f16.gguf (892 MB) 或者 mmproj-Q8_0.gguf (603 MB)。
    • 注意:通常视觉大模型(VLM)的 GGUF 版本需要这个 mmproj 文件来处理图像输入。如果节点无法自动识别,请确保它与主模型在同一目录下。

第三步:文件放置位置

将下载好的 .gguf 文件移动到 ComfyUI 的模型目录下。

  • 目标路径: ComfyUI/models/LLM/
    (如果 LLM 文件夹不存在,请手动创建一个)

第四步:在 ComfyUI 中加载

  1. 启动 ComfyUI。
  2. 加载 ComfyUI-Youtu-VL 的工作流。
  3. 找到 "Youtu-VL (GGUF)" 节点。
  4. 在 model_name(或类似选项)下拉菜单中,点击刷新,然后选择您刚刚下载的 Youtu-VL-4B-Instruct.Q4_K_M.gguf 文件。

总结

简单来说,“安装”就是:

  1. pip install llama-cpp-python
  2. 下载 Q4_K_M.gguf 和 mmproj-f16.gguf
  3. 把它们扔进 ComfyUI/models/LLM/ 文件夹。

由于目前这个节点还是有问题,不能扫描全局模型。不过你可以使用它固定值的模型,开启魔法下载即可。

自己选择GGUF模型下载的,https://hf-mirror.com/mradermacher/Youtu-VL-4B-Instruct-GGUF/tree/main

使用我修改的代码。会员自提。

隐藏内容
本内容需权限查看
  • 普通用户: 199金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。