📘 本地推理模型腾讯youtu：ComfyUI-优图-VL 插件操作手册-closerAI(未授权)

ComfyUI-Youtu-VL 是为腾讯优图实验室推出的轻量级（4B参数）视觉语言模型定制的插件。它支持视觉接地、分割、深度估计及姿态估计，特别适合生成高质量提示词、打标及 OCR 任务。

项目地址：https://github.com/1038lab/ComfyUI-Youtu-VL

模型下载地址：https://huggingface.co/tencent/Youtu-VL-4B-Instruct

🛠 一、安装指南

本项目提供两种安装方式，推荐使用管理器安装。

方法 1：通过 ComfyUI Manager（推荐）

启动 ComfyUI。
打开 Manager (管理器)。
点击 Custom Nodes Manager，搜索 ComfyUI Youtu-VL（发布者：1038lab）。
点击 Install 并重启 ComfyUI。

方法 2：手动安装

打开终端，进入你的 ComfyUI 插件目录：cd ComfyUI/custom_nodes/
克隆仓库：git clone https://github.com/1038lab/ComfyUI-Youtu-VL.git
安装依赖：cd ComfyUI-Youtu-VL pip install -r requirements.txt

💡 可选：启用 GGUF 支持（显存优化）

如果你希望在消费级显卡（6GB+）上获得更快的速度，建议安装 llama-cpp-python：

# 请根据你的 CUDA 版本替换 cu121 (例如 cu118)
pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121

🧩 二、核心节点介绍

插件提供两种主要的引擎节点，用户可根据硬件配置选择：

节点名称	引擎类型	特点	适用场景
Youtu-VL (Standard)	Transformers	高精度，支持 Flash Attention 2。	追求极致描述效果、科研实验。
Youtu-VL (GGUF)	llama.cpp	极速，低显存占用，支持 4-bit/8-bit。	消费级显卡、日常高频使用。

提示： 模型会在首次使用时自动下载至 models/LLM/Youtu-VL 文件夹下。

🎮 三、功能预设与应用

在节点设置中，你可以通过内置的 Preset Modes（预设模式） 快速执行任务：

预设模式	功能描述
📝 详细描述	生成长段落，涵盖光线、构图及主体细节（适合反推提示词）。
🏷️ 生成标签	创建逗号分隔的标签（Danbooru 风格，适合 LoRA 训练打标）。
📄 OCR 文本	自动读取并提取图像中的可见文字。
🎨 艺术风格	识别并描述作品的媒介、技法和艺术家风格。
❓ 视觉问答	通过自定义问题与图片“聊天”（如：问“图中人物穿什么颜色？”）。

🚧 四、故障排除

找不到 GGUF 节点？
- 请检查 llama-cpp-python 是否安装成功。
内存不足（OOM）？
- 请切换到 GGUF 节点，并选择 Q4_K_M 或 Q5 等量化型号。
找不到分割/深度节点？
- 目前这些功能仍处于测试阶段，位于插件的 Beta 文件夹中。

以下是针对 ComfyUI-Youtu-VL 项目使用 GGUF 模型的详细步骤：

第一步：安装必要的 Python 依赖

要在 ComfyUI 中运行 GGUF 格式，您必须先安装 llama-cpp-python 库。

打开终端（cmd 或 PowerShell）并进入您的 ComfyUI python 环境。
根据您的显卡（CUDA版本）运行安装命令（参考上一轮文档）：# 示例：如果您使用的是 CUDA 12.1 pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121(如果您是 Mac 用户或使用其他 CUDA 版本，请替换 URL 中的 cu121)

第二步：选择并下载模型文件

您不需要下载列表中的所有文件。根据您的显存大小，下载以下两个文件（主模型 + 视觉投影器）：

1. 主模型（大脑 - 负责处理文本和逻辑）：

推荐（平衡速度与质量）： Youtu-VL-4B-Instruct.Q4_K_M.gguf (约 3.09 GB) —— 适合 6GB-8GB 显存。
高性能（质量稍好）： Youtu-VL-4B-Instruct.Q5_K_M.gguf (约 3.54 GB) —— 适合 8GB+ 显存。
极致速度（质量较低）： Youtu-VL-4B-Instruct.Q3_K_M.gguf (约 2.6 GB) —— 适合低显存设备。

2. 视觉投影器（眼睛 - 负责看图）：

必须下载：Youtu-VL-4B-Instruct.mmproj-f16.gguf (892 MB) 或者 mmproj-Q8_0.gguf (603 MB)。
- 注意：通常视觉大模型（VLM）的 GGUF 版本需要这个 mmproj 文件来处理图像输入。如果节点无法自动识别，请确保它与主模型在同一目录下。

第三步：文件放置位置

将下载好的 .gguf 文件移动到 ComfyUI 的模型目录下。

目标路径： ComfyUI/models/LLM/
(如果 LLM 文件夹不存在，请手动创建一个)

第四步：在 ComfyUI 中加载

启动 ComfyUI。
加载 ComfyUI-Youtu-VL 的工作流。
找到 "Youtu-VL (GGUF)" 节点。
在 model_name（或类似选项）下拉菜单中，点击刷新，然后选择您刚刚下载的 Youtu-VL-4B-Instruct.Q4_K_M.gguf 文件。

总结

简单来说，“安装”就是：

pip install llama-cpp-python
下载 Q4_K_M.gguf 和 mmproj-f16.gguf。
把它们扔进 ComfyUI/models/LLM/ 文件夹。

由于目前这个节点还是有问题，不能扫描全局模型。不过你可以使用它固定值的模型，开启魔法下载即可。

自己选择GGUF模型下载的，https://hf-mirror.com/mradermacher/Youtu-VL-4B-Instruct-GGUF/tree/main

使用我修改的代码。会员自提。

隐藏内容

本内容需权限查看

普通用户: 199金币
VIP会员: 免费
永久会员: 免费

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

📘 本地推理模型腾讯youtu：ComfyUI-优图-VL 插件操作手册

🛠 一、安装指南

方法 1：通过 ComfyUI Manager（推荐）

方法 2：手动安装

💡 可选：启用 GGUF 支持（显存优化）

🧩 二、核心节点介绍

🎮 三、功能预设与应用

🚧 四、故障排除

第一步：安装必要的 Python 依赖

第二步：选择并下载模型文件

第三步：文件放置位置

第四步：在 ComfyUI 中加载

总结

评论(0)

提示：请文明发言取消回复

🚨【马年优惠】普通永久会员¥599！仅剩38个,抢完即止！

作者信息

文章展示

grok在消消变强，变得更有生产力，grok文本、图像、视频全面升级！目前是免费中最强最快的生产力工具！冲！

【closerAI ComfyUI】FireRed-Image-Edit-1.0图像编辑模型的comfyUI部署与实现方案，效果到底如何？

指令式图像编辑的新尝试：解析小红书开源模型 FireRed-Image-Edit

【closerAI ComfyUI】高效！分镜图+seedance2.0视频生成法！减少输入，用图表达，提升效率！节省积分！

“玩转” Seedance 2.0

终结 AI “文盲”时代！Qwen-Image-2.0 震撼发布：2K 超清 + 1k token 渲染，生图编辑双王炸！

📘 本地推理模型腾讯youtu：ComfyUI-优图-VL 插件操作手册

🛠 一、 安装指南

方法 1：通过 ComfyUI Manager（推荐）

方法 2：手动安装

💡 可选：启用 GGUF 支持（显存优化）

🧩 二、 核心节点介绍

🎮 三、 功能预设与应用

🚧 四、 故障排除

第一步：安装必要的 Python 依赖

第二步：选择并下载模型文件

第三步：文件放置位置

第四步：在 ComfyUI 中加载

总结

评论(0)

提示：请文明发言 取消回复

相关文章

🚨【马年优惠】普通永久会员¥599！仅剩38个,抢完即止！

作者信息

文章展示

🛠 一、安装指南

🧩 二、核心节点介绍

🎮 三、功能预设与应用

🚧 四、故障排除

提示：请文明发言取消回复