https://huggingface.co/deepgenteam/DeepGen-1.0

DeepGen 1.0 是一款轻量级的统一多模态模型,仅包含 50 亿个参数(30 亿 VLM + 20 亿 DiT)。它将五项核心功能——通用图像生成、通用图像编辑、推理图像生成、推理图像编辑和文本渲染——集成于单一模型之中。在多个权威基准测试中,DeepGen 1.0 的性能与规模是其 3 倍到 16 倍的现有最先进的统一多模态模型相比毫不逊色,甚至更胜一筹,实现了全面的性能提升,这表明大规模扩展并非实现高性能多模态生成的唯一途径。

🧠 方法
我们的核心观察是,轻量级模型通过协同架构设计和以数据为中心的训练策略,可以达到与规模更大的模型相媲美甚至超越它们的综合能力。为了克服轻量级模型在语义理解和细粒度控制方面的局限性,我们引入了堆叠通道桥接(SCB) ——一种深度对齐框架,它从多个VLM层提取分层特征,并将其与可学习的“思考标记”融合,从而为生成式骨干网络提供结构化、推理丰富的指导。我们进一步设计了一种以数据为中心的训练策略,该策略涵盖三个渐进阶段:(1)在大规模图像-文本对和编辑三元组上进行对齐预训练,以同步 VLM 和 DiT 表示;(2)在高质量的生成、编辑和推理任务混合上进行联合监督微调,以培养全能能力;(3)使用 MR-GRPO 进行强化学习,利用奖励函数和监督信号的混合,从而在保持稳定训练进度和避免视觉伪影的同时,显著提高生成质量和与人类偏好的一致性。

📊 基准测试
1. 通用图像生成
| 模型 | 参数 | 日内瓦 ↑ | DPGBench ↑ | UniGenBench ↑ |
|---|---|---|---|---|
| OmniGen2 | 3B + 4B | 0.80 | 83.57 | 63.09 |
| 百吉饼 | 14B | 0.82 | 85.10 | 61.53 |
| X-Omni | 7B + 12B | 0.83 | 87.65🥉 | 53.77 |
| 轻迪莫 | 8B | 0.88🥇 | 86.04 | 71.12 |
| Hunyuan-Image-3.0 | 80B | 0.72 | 86.10 | — |
| Qwen-Image | 7B + 20B | 0.87 🥈 | 88.32 🥇 | 78.81 🥇 |
| 长猫图片 | 7B + 6B | 0.87 🥈 | 86.80 | — |
| Z-Image-Turbo | 4B + 6B | 0.84 | 85.15 | 71.40 |
| GLM-图像 | 9B + 7B | — | 84.78 | — |
| DeepGen 1.0 (SFT) | 3B + 2B | 0.86 🥉 | 87.05 | 74.18 🥉 |
| DeepGen 1.0 (RL) | 3B + 2B | 0.87 🥈 | 87.90 🥈 | 75.74 🥈 |
2. 通用图像编辑
| 模型 | 参数 | GEdit-EN ↑ | 图片编辑 ↑ |
|---|---|---|---|
| 百吉饼 | 14B | 6.52 | 3.20 |
| Qwen-图像编辑 [2509] | 7B + 20B | 7.54 🥈 | 4.35 🥈 |
| LongCat-Image-Edit | 7B + 6B | 7.60 🥇 | 4.50 🥇 |
| 猛犸象2 | 8B + 3B + 2B | 6.60 | 4.06 |
| DeepGen 1.0 (SFT) | 3B + 2B | 7.12 | 4.09 |
| DeepGen 1.0 (RL) | 3B + 2B | 7.17 🥉 | 4.14 🥉 |
3. 推理图像生成
| 模型 | 参数 | 明智之举 ↑ | T2I-CoREBench ↑ |
|---|---|---|---|
| OmniGen2 | 3B + 4B | 0.47 | 36.1 |
| 百吉饼 | 14B | 0.70 🥉 | 41.1 |
| Hunyuan-Image-3.0 | 80B | 0.57 | 46.0 |
| Qwen-Image | 7B + 20B | 0.62 | 46.3 🥉 |
| 长猫图片 | 7B + 6B | 0.65 | 52.2 🥇 |
| Z-Image-Turbo | 4B + 6B | - | 43.7 |
| DeepGen 1.0 (SFT) | 3B + 2B | 0.72 🥈 | 45.7 |
| DeepGen 1.0 (RL) | 3B + 2B | 0.73 🥇 | 46.5 🥈 |
4. 推理图像编辑
| 模型 | 参数 | 上升 ↑ | UniREditBench ↑ |
|---|---|---|---|
| OmniGen2 | 3B + 4B | - | 43.4 |
| 百吉饼 | 14B | 11.9 🥈 | 51.0 |
| Qwen-图像编辑 [2509] | 7B + 20B | 8.9 | 56.5 🥉 |
| DeepGen 1.0 (SFT) | 3B + 2B | 13.3 🥇 | 77.5 🥇 |
| DeepGen 1.0 (RL) | 3B + 2B | 10.8 🥉 | 75.7 🥈 |
🎨 定量结果

1. 模型概况
- 规模与构成:DeepGen 1.0 是一个仅有 5B 参数的轻量级模型,由 3B 的视觉语言模型(VLM)和 2B 的扩散转换器(DiT)组成。
- 核心定位:旨在通过小参数量实现高性能,挑战“唯规模论”。它在多个基准测试中表现优于比其大 3 到 16 倍的模型。
2. 五大核心能力
该模型在单一框架内集成了以下功能:
- 通用图像生成(General Image Generation)
- 通用图像编辑(General Image Editing)
- 推理图像生成(Reasoning Image Generation)
- 推理图像编辑(Reasoning Image Editing)
- 文本渲染(Text Rendering)
3. 核心技术创新
- Stacked Channel Bridging (SCB):一种深度对齐框架,从 VLM 的多个层中提取特征,并结合可学习的 “思考令牌”(think tokens),为生成背骨提供结构化的推理引导。
- 三阶段训练策略:
- 对齐预训练:在海量图文对和编辑三元组上同步 VLM 和 DiT。
- 联合有监督微调 (SFT):使用高质量任务混合数据培养全能能力。
- 强化学习 (RL):采用 MR-GRPO 算法,利用混合奖励函数提升生成质量和人类偏好对齐,同时避免视觉伪影。
4. 性能表现
- 在 Geneval、DPGBench 等通用生成榜单,以及 WISE、RISE 等推理生成/编辑榜单上,DeepGen 1.0(尤其是 RL 版本)均取得了数一数二的成绩,特别是在推理图像编辑领域表现极其突出。
5. 其他信息
- 基础模型:基于
Qwen2.5-VL-3B-Instruct进行微调。 - 使用方法:官方发布了预训练、SFT 和 RL 的检查点。用户需要先合并分段的 ZIP 文件再进行解压使用。
- 开源协议:采用 Apache-2.0 协议。
一句话总结: DeepGen 1.0 是一个高效的 5B 参数多模态模型,通过创新的 SCB 架构和强化学习策略,在图像生成与推理编辑任务上达到了顶级水平,证明了轻量级模型也能拥有极强的语义理解和精细控制能力。
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

评论(0)