https://huggingface.co/deepgenteam/DeepGen-1.0

DeepGen 1.0 是一款轻量级的统一多模态模型,仅包含 50 亿个参数(30 亿 VLM + 20 亿 DiT)。它将五项核心功能——通用图像生成、通用图像编辑、推理图像生成、推理图像编辑和文本渲染——集成于单一模型之中。在多个权威基准测试中,DeepGen 1.0 的性能与规模是其 3 倍到 16 倍的现有最先进的统一多模态模型相比毫不逊色,甚至更胜一筹,实现了全面的性能提升,这表明大规模扩展并非实现高性能多模态生成的唯一途径。

🧠 方法

我们的核心观察是,轻量级模型通过协同架构设计和以数据为中心的训练策略,可以达到与规模更大的模型相媲美甚至超越它们的综合能力。为了克服轻量级模型在语义理解和细粒度控制方面的局限性,我们引入了堆叠通道桥接(SCB) ——一种深度对齐框架,它从多个VLM层提取分层特征,并将其与可学习的“思考标记”融合,从而为生成式骨干网络提供结构化、推理丰富的指导。我们进一步设计了一种以数据为中心的训练策略,该策略涵盖三个渐进阶段:(1)在大规模图像-文本对和编辑三元组上进行对齐预训练,以同步 VLM 和 DiT 表示;(2)在高质量的生成、编辑和推理任务混合上进行联合监督微调,以培养全能能力;(3)使用 MR-GRPO 进行强化学习,利用奖励函数和监督信号的混合,从而在保持稳定训练进度和避免视觉伪影的同时,显著提高生成质量和与人类偏好的一致性。

📊 基准测试

1. 通用图像生成

模型参数日内瓦 ↑DPGBench ↑UniGenBench ↑
OmniGen23B + 4B0.8083.5763.09
百吉饼14B0.8285.1061.53
X-Omni7B + 12B0.8387.65🥉53.77
轻迪莫8B0.88🥇86.0471.12
Hunyuan-Image-3.080B0.7286.10
Qwen-Image7B + 20B0.87 🥈88.32 🥇78.81 🥇
长猫图片7B + 6B0.87 🥈86.80
Z-Image-Turbo4B + 6B0.8485.1571.40
GLM-图像9B + 7B84.78
DeepGen 1.0 (SFT)3B + 2B0.86 🥉87.0574.18 🥉
DeepGen 1.0 (RL)3B + 2B0.87 🥈87.90 🥈75.74 🥈

2. 通用图像编辑

模型参数GEdit-EN ↑图片编辑 ↑
百吉饼14B6.523.20
Qwen-图像编辑 [2509]7B + 20B7.54 🥈4.35 🥈
LongCat-Image-Edit7B + 6B7.60 🥇4.50 🥇
猛犸象28B + 3B + 2B6.604.06
DeepGen 1.0 (SFT)3B + 2B7.124.09
DeepGen 1.0 (RL)3B + 2B7.17 🥉4.14 🥉

3. 推理图像生成

模型参数明智之举 ↑T2I-CoREBench ↑
OmniGen23B + 4B0.4736.1
百吉饼14B0.70 🥉41.1
Hunyuan-Image-3.080B0.5746.0
Qwen-Image7B + 20B0.6246.3 🥉
长猫图片7B + 6B0.6552.2 🥇
Z-Image-Turbo4B + 6B-43.7
DeepGen 1.0 (SFT)3B + 2B0.72 🥈45.7
DeepGen 1.0 (RL)3B + 2B0.73 🥇46.5 🥈

4. 推理图像编辑

模型参数上升 ↑UniREditBench ↑
OmniGen23B + 4B-43.4
百吉饼14B11.9 🥈51.0
Qwen-图像编辑 [2509]7B + 20B8.956.5 🥉
DeepGen 1.0 (SFT)3B + 2B13.3 🥇77.5 🥇
DeepGen 1.0 (RL)3B + 2B10.8 🥉75.7 🥈

🎨 定量结果

1. 模型概况

  • 规模与构成:DeepGen 1.0 是一个仅有 5B 参数的轻量级模型,由 3B 的视觉语言模型(VLM)和 2B 的扩散转换器(DiT)组成。
  • 核心定位:旨在通过小参数量实现高性能,挑战“唯规模论”。它在多个基准测试中表现优于比其大 3 到 16 倍的模型。

2. 五大核心能力

该模型在单一框架内集成了以下功能:

  1. 通用图像生成(General Image Generation)
  2. 通用图像编辑(General Image Editing)
  3. 推理图像生成(Reasoning Image Generation)
  4. 推理图像编辑(Reasoning Image Editing)
  5. 文本渲染(Text Rendering)

3. 核心技术创新

  • Stacked Channel Bridging (SCB):一种深度对齐框架,从 VLM 的多个层中提取特征,并结合可学习的 “思考令牌”(think tokens),为生成背骨提供结构化的推理引导。
  • 三阶段训练策略
    1. 对齐预训练:在海量图文对和编辑三元组上同步 VLM 和 DiT。
    2. 联合有监督微调 (SFT):使用高质量任务混合数据培养全能能力。
    3. 强化学习 (RL):采用 MR-GRPO 算法,利用混合奖励函数提升生成质量和人类偏好对齐,同时避免视觉伪影。

4. 性能表现

  • 在 GenevalDPGBench 等通用生成榜单,以及 WISERISE 等推理生成/编辑榜单上,DeepGen 1.0(尤其是 RL 版本)均取得了数一数二的成绩,特别是在推理图像编辑领域表现极其突出。

5. 其他信息

  • 基础模型:基于 Qwen2.5-VL-3B-Instruct 进行微调。
  • 使用方法:官方发布了预训练、SFT 和 RL 的检查点。用户需要先合并分段的 ZIP 文件再进行解压使用。
  • 开源协议:采用 Apache-2.0 协议。

一句话总结: DeepGen 1.0 是一个高效的 5B 参数多模态模型,通过创新的 SCB 架构和强化学习策略,在图像生成与推理编辑任务上达到了顶级水平,证明了轻量级模型也能拥有极强的语义理解和精细控制能力。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。