卷！仅用 2.7M 数据打破视觉理解与生成格局，北大团队提出 UniWorld-V1：统一视觉理解与生成的创新框架！效果如何？-closerAI(未授权)

更多AI前沿科技资讯，请关注我们：

【closerAI ComfyUI】卷！仅用 2.7M 数据打破视觉理解与生成格局，北大团队提出 UniWorld-V1：统一视觉理解与生成的创新框架！效果如何到底？

大家好，我是Jimmy。在人工智能领域，视觉理解与生成一直是备受关注的研究方向。近日，北京大学等机构的研究团队提出了一种全新的统一视觉理解与生成框架 ——UniWorld-V1，为该领域带来了新的突破。

北大团队提出 UniWorld-V1：统一视觉理解与生成的创新框架

现有统一模型在视觉语言理解和文本到图像生成方面取得了一定成果，但在实际应用中日益需要的图像感知和操作能力上仍存在局限。而 OpenAI 推出的强大的 GPT-4o-Image 模型，在全面的图像感知和操作方面展示出先进能力，引发了广泛关注。研究团队通过精心设计的实验观察到，GPT-4o-Image 在特征提取上可能依赖语义编码器而非传统上被认为对图像操作任务至关重要的变分自编码器（VAE）。受此启发，团队提出了 UniWorld-V1。

项目链接：https://github.com/PKU-YuanGroup/UniWorld-V1

论文地址：https://arxiv.org/abs/2506.03147

基于语义编码器替代传统 VAE，仅用270 万训练样本，实现图像理解、生成、操纵、感知等多任务统一处理，性能超越多数开源模型，接近 GPT-4o-Image 水平。

一、核心作用

多任务统一：覆盖图像理解（检测 / 分割）、生成（文本→图像）、操纵（编辑 / 去噪）、感知（边缘 / 深度预测）全流程。
数据高效：仅用同类模型约0.1% 数据量（270 万 vs. BAGEL 的 26.65 亿），实现更高效率的视觉特征学习。
开源普惠：开源模型、代码、数据集，降低研究门槛，推动领域发展。

二、技术特点

语义编码器架构：采用SigLIP 高分辨率对比语义编码器，替代 VAE，同时捕捉像素级细节（如局部纹理）和语义级概念（如 “狗”“汽车”）。结合Qwen2.5-VL 多模态大模型，实现文本指令与视觉特征的深度对齐。
两阶段训练策略： 阶段 1（语义对齐）：冻结主干模型，仅训练 MLP 层对齐文本与视觉特征。阶段 2（一致生成）：解冻扩散模型，利用语义编码器引导生成，确保编辑一致性。
自适应权重策略：通过对数加权函数提升小编辑区域的训练权重，解决背景主导问题。

三、突破性进展

1、任务覆盖突破：首个开源模型同时支持图像感知 + 操纵 + 生成 + 理解，填补现有模型在跨任务统一处理上的空白。

2、性能超越：

图像编辑：ImgEdit-Bench 总分 3.37，超越 BAGEL（3.17）、Step1X-Edit（3.17），接近 GPT-4o-Image（4.31）。
文本生成：GenEval 得分 0.84（使用提示重写），仅比 BAGEL 低 0.04，但数据量少 99%。
视觉理解：MMMU 得分 58.6，超越 Janus、Emu3 等模型，继承多模态大模型的理解能力。

3、架构创新：

验证语义编码器优于 VAE的技术路径，为后续模型设计提供新方向（如放弃低频率信息依赖，强化语义先验）。
引入ZeRO-3 EMA 优化技术，降低显存占用，支持大规模模型训练。

UniWorld-V1以语义编码器架构和高效数据利用为核心，用最少数据实现最强多任务视觉统一处理，重新定义开源视觉模型的性能标杆。

comfyUI中的实现与体验

目前开源的comfyUI节点还没有，但RH上已实现，大家可以先上去玩，等comfyUI节点项目开源。

以下是基于RH上搭建的uniworld图像编辑工作流：

关键节点如下：搭建简单

我做了三个案例的工作流：

1、uniworld风格迁移：

2、uniworld物体替换：

3、物体消除

线上体验

如果本地设备算力不好的小伙伴，推荐使用线上comfyUI来运行体验：runninghub.cn

runninghub.cn UniWorld风格迁移体验地址：

https://www.runninghub.cn/ai-detail/1931183262465458178

注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点，每日登录送100点

最后几句：

UniWorld-V1以语义编码器架构和高效数据利用为核心，用最少数据实现最强多任务视觉统一处理，重新定义开源视觉模型的性能标杆。

以上uniworld项目有介绍，以及测评体验，同时是closerAI团队制作的stable diffusion comfyUI closerAI开发的closerAI uniworld图像编辑工作流介绍，大家可以根据工作流思路进行尝试搭建。

当然，也可以在我们closerAI会员站上获取对应的工作流(查看原文)。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：JimmyMo

更多AI前沿科技资讯，请关注我们：

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

隐藏内容

本内容需权限查看

普通用户: 99.9金币
VIP会员: 免费
永久会员: 免费

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

卷！仅用 2.7M 数据打破视觉理解与生成格局，北大团队提出 UniWorld-V1：统一视觉理解与生成的创新框架！效果如何？

评论(0)

提示：请文明发言取消回复

🚨【元旦优惠】普通永久会员¥599！仅剩8席，抢完即止！

作者信息

文章展示

【closerAI ComfyUI】主体多视角解决方案！基于qwenEdit2511多视角控制LORA+closerAI视角控制节点的工作流解决方案！

音画同步生成！开源视频模型新王：LTX-2，重新定义影音同步的 AI 视频创作新标准，多种控制引导实现精确创作！

【closerAI ComfyUI】新方案！从服装穿搭拆解对比qwenEdit2511和nanoBanana pro，到nanoBanana Pro在comfyUI中畅玩的最新实现方案！

【closerAI ComfyUI】最强开源文生图模型，高起点的创作基座，迈向照片级真实感：Qwen-Image-2512 技术升级！新年新阶段！

【closerAI ComfyUI】太强了！腾讯混元 HY-Motion 1.0：3D 动作生成的“大力出奇迹”，配合 ComfyUI 量化版实现 8G 显存生成 FBX 动画！

从一首歌到AI MV到gemini 3生产力程序化应用无脑输出的过程分享及一些思考碎碎念

卷！仅用 2.7M 数据打破视觉理解与生成格局，北大团队提出 UniWorld-V1：统一视觉理解与生成的创新框架！效果如何？

评论(0)

提示：请文明发言 取消回复

相关文章

🚨【元旦优惠】普通永久会员¥599！仅剩8席，抢完即止！

作者信息

文章展示

提示：请文明发言取消回复