添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

【closerAI ComfyUI】卷!仅用 2.7M 数据打破视觉理解与生成格局,北大团队提出 UniWorld-V1:统一视觉理解与生成的创新框架!效果如何到底?

大家好,我是Jimmy。在人工智能领域,视觉理解与生成一直是备受关注的研究方向。近日,北京大学等机构的研究团队提出了一种全新的统一视觉理解与生成框架 ——UniWorld-V1,为该领域带来了新的突破

添加图片注释,不超过 140 字(可选)

北大团队提出 UniWorld-V1:统一视觉理解与生成的创新框架

现有统一模型在视觉语言理解和文本到图像生成方面取得了一定成果,但在实际应用中日益需要的图像感知和操作能力上仍存在局限。而 OpenAI 推出的强大的 GPT-4o-Image 模型,在全面的图像感知和操作方面展示出先进能力,引发了广泛关注。研究团队通过精心设计的实验观察到,GPT-4o-Image 在特征提取上可能依赖语义编码器而非传统上被认为对图像操作任务至关重要的变分自编码器(VAE)。受此启发,团队提出了 UniWorld-V1。

项目链接:https://github.com/PKU-YuanGroup/UniWorld-V1

论文地址:https://arxiv.org/abs/2506.03147

添加图片注释,不超过 140 字(可选)

基于语义编码器替代传统 VAE,仅用270 万训练样本,实现图像理解、生成、操纵、感知等多任务统一处理,性能超越多数开源模型,接近 GPT-4o-Image 水平。

一、核心作用

添加图片注释,不超过 140 字(可选)
  1. 多任务统一:覆盖图像理解(检测 / 分割)、生成(文本→图像)、操纵(编辑 / 去噪)、感知(边缘 / 深度预测)全流程。
  2. 数据高效:仅用同类模型约0.1% 数据量(270 万 vs. BAGEL 的 26.65 亿),实现更高效率的视觉特征学习。
  3. 开源普惠:开源模型、代码、数据集,降低研究门槛,推动领域发展。

二、技术特点

添加图片注释,不超过 140 字(可选)
  1. 语义编码器架构:采用SigLIP 高分辨率对比语义编码器,替代 VAE,同时捕捉像素级细节(如局部纹理)和语义级概念(如 “狗”“汽车”)。结合Qwen2.5-VL 多模态大模型,实现文本指令与视觉特征的深度对齐。
  2. 两阶段训练策略: 阶段 1(语义对齐):冻结主干模型,仅训练 MLP 层对齐文本与视觉特征。 阶段 2(一致生成):解冻扩散模型,利用语义编码器引导生成,确保编辑一致性。
  3. 自适应权重策略:通过对数加权函数提升小编辑区域的训练权重,解决背景主导问题。

三、突破性进展

添加图片注释,不超过 140 字(可选)

1、任务覆盖突破:首个开源模型同时支持图像感知 + 操纵 + 生成 + 理解,填补现有模型在跨任务统一处理上的空白。

2、性能超越:

  • 图像编辑:ImgEdit-Bench 总分 3.37,超越 BAGEL(3.17)、Step1X-Edit(3.17),接近 GPT-4o-Image(4.31)。
  • 文本生成:GenEval 得分 0.84(使用提示重写),仅比 BAGEL 低 0.04,但数据量少 99%。
  • 视觉理解:MMMU 得分 58.6,超越 Janus、Emu3 等模型,继承多模态大模型的理解能力。

3、架构创新:

  • 验证语义编码器优于 VAE的技术路径,为后续模型设计提供新方向(如放弃低频率信息依赖,强化语义先验)。
  • 引入ZeRO-3 EMA 优化技术,降低显存占用,支持大规模模型训练。
添加图片注释,不超过 140 字(可选)

UniWorld-V1以语义编码器架构和高效数据利用为核心,用最少数据实现最强多任务视觉统一处理,重新定义开源视觉模型的性能标杆。

comfyUI中的实现与体验

目前开源的comfyUI节点还没有,但RH上已实现,大家可以先上去玩,等comfyUI节点项目开源。

以下是基于RH上搭建的uniworld图像编辑工作流:

添加图片注释,不超过 140 字(可选)

关键节点如下:搭建简单

添加图片注释,不超过 140 字(可选)

我做了三个案例的工作流:

1、uniworld风格迁移:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

2、uniworld物体替换:

添加图片注释,不超过 140 字(可选)

3、物体消除

添加图片注释,不超过 140 字(可选)

线上体验

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

runninghub.cn UniWorld风格迁移体验地址:

https://www.runninghub.cn/ai-detail/1931183262465458178

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

UniWorld-V1以语义编码器架构和高效数据利用为核心,用最少数据实现最强多任务视觉统一处理,重新定义开源视觉模型的性能标杆。

以上uniworld项目有介绍,以及测评体验,同时是closerAI团队制作的stable diffusion comfyUI closerAI开发的closerAI uniworld图像编辑工作流介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。