
更多AI前沿科技资讯,请关注我们:
closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台
【closerAI ComfyUI】对标GPT-4o!字节跳动黑科技BAGEL开源:MoE统一多模态模型!社区量化版消费显卡可玩!

大家好,我是Jimmy。2025年5月20日,字节跳动开源了它新的项目Bagel:采用混合专家(MoE)架构的统一多模态模型。它具备强大的多模态理解和生成能力,能够处理图像和文本的混合输入与输出,在多个领域展现出卓越的性能。

BAGEL:开源统一多模态模型
Bagel(内部代号)是字节跳动AI实验室(ByteDance AI Lab)主导的纯文本预训练大语言模型项目,与面向多模态的豆包(Doubao)模型并列,构成字节大模型技术矩阵的核心部分。其名称可能源自“ByteDance AI Generative Enhanced Language-model”的缩写,强调其在文本生成与理解领域的专项突破。
BAGEL是全球首个开源统一多模态模型,支持微调、蒸馏与跨平台部署。其原生多模态架构提供媲美GPT-4o和Gemini 2.0的功能,同时具备精准、高保真、照片级图像生成能力,彻底打破闭源模型的垄断格局。
项目相关链接:

1、关键特征与技术架构

- 专注文本赛道:区别于豆包模型的多模态能力,Bagel聚焦于纯文本任务优化在长文本理解、逻辑推理、代码生成等场景针对性提升性能,目标对标GPT-4、Claude等国际顶尖文本模型。
- MoE架构降本增效:根据技术社区爆料(如知乎、脉脉),Bagel采用混合专家系统(Mixture of Experts, MoE)架构,通过动态路由机制激活部分参数处理任务,显著降低训练与推理成本,同时保持千亿级参数量规模。
- 高性能基座模型:2024年初,字节内部测试数据显示,Bagel在中文权威基准(如C-Eval、Gaokao-Bench)及英文MMLU上的表现接近GPT-4-Turbo水平,尤其在法律、金融等专业领域表现突出。
2、六大核心能力

能力 | 技术原理 | 应用场景示例 |
---|---|---|
Chat | 继承大语言模型推理能力,支持多轮图文对话 | 艺术史分析(如解析大卫雕像细节) |
Generation | 基于视频-网页交错数据生成高保真图像/视频帧 | 魔法药瓶的写实图像生成 |
Editing | 从视频中学习视觉运动规律,实现身份保持的精细编辑 | 人物动作修改(蹲下摸狗头→站立举手) |
Style Transfer | 最小对齐数据实现跨风格迁移 | 真实照片→3D 动画风格转换 |
Navigation | 从真实世界视频蒸馏导航知识,支持科幻/艺术场景路径规划 | 第一视角环境移动控制 |
Thinking | 多模态思维链(CoT)推理,将简单提示扩展为详细生成指令 | “小车组成的大车”概念具象化实现 |
3、性能优势
在标准多模态理解任务中,BAGEL表现出色,超越了当前许多顶级开源视觉语言模型(VLMs),如Qwen2.5-VL和InternVL-2.5。它能够准确地理解图像和文本中的信息,并进行合理的推理和回答。

在文本到图像生成方面,BAGEL的质量与专业的图像生成器(如SD3)相媲美。它可以根据用户提供的文本描述生成高质量、逼真的图像,满足各种创意设计需求。

comfyUI BAGEL:在comfyUI中实现与体验
打开我们(closerai.douyoubuy.cn)comfyUI节点助手,搜索:bagel,筛选出两个结果。


官方更推荐:筛选结果的第一个:

我们点击AI文档:

形成AI文档:

我们输入提问:如何安装。

以下AI返回的安装步骤:

自动下载机制
如果模型文件不存在,系统会自动尝试下载。代码中的 BagelModelLoader 类会检查本地模型文件,如果缺失会自动触发下载。
安装完成后,您可以在 ComfyUI 中找到 BAGEL 相关的节点,包括 BagelModelLoader、BagelTextToImage、BagelImageEdit 和 BagelImageUnderstanding。扩展支持文本生成图像、图像编辑和图像理解三种主要功能。
comfyUI Bagel:https://github.com/neverbiasu/ComfyUI-BAGEL
对显存VRAM的要求说明
生成1024×1024图像的官方建议是超过80GB的GPU内存。但是,多GPU设置可以分配内存负载。举例来说:
- 单个GPU:A100(40 GB)每幅图像大约需要340-380秒。
- 多GPU:3个RTX3090 GPU(每个24GB)在大约1分钟内完成任务。
- 压缩模型:使用DFloat11版本只需要22GB VRAM,可以在单个24GB GPU上运行,峰值内存使用量约为21.76GB(A100),生成时间约为58秒。

社区量化的Bagel DFloat11 版本能在24G显卡上运行。满足需求的小伙伴尝试。模型已经打包,会员小伙伴在模型库下载。其它小伙伴在以下链接下载量化版的BAGEL dfloat11版本:
https://github.com/QijiTec/ComfyUI-REDBAGEL-dfloat11


这是上面节点分支。里面有详细说明安装节点。大家下载这个节点和量化模型使用。
虽然本地部署吃配置,但我们也能够在RH 云comfyUI上玩。我们要注意,因为它是7B激活,原本是14B。所以字节团队开源的应该还不是满血版的。

Bagel comfyUI工作流
1、bagel 图像生成能力体验
在RH上搭建并使用BAGEL,我们先尝试bagel的图像生成能力:comfyUI bagel的使用很简单。拉出图像生成节点。如下图示:

在输入框中输入提示词生成。
这里我懒得写,使用我们的AI绘画助手进行反推提示词。

复制英文提示词,
A woman wearing a green leaf-shaped mask with sunglasses, a matching cropped top and short skirt with a floral pattern. She's wearing olive green high-heeled sandals. The background features pastel pink and green shapes. The style is whimsical and fashion-forward.
粘贴到工作流输入框中,执行:


跑了5分钟。
得出这个结果:

模糊。官方有说明如果模糊的解决方法:

好吧,调整下参数。cfg renorm min设置成0看看

在等待时候,我使用我们的AI绘画助手同样提示词生成一个:


AI绘画助手我使用的是flux shell模型,这是shell flux版的跑图结果。
大约7分钟后:Bagel生成的图像:

可见质量很不错。就是加载模型有点久。跑图时间有点长。
2、bagel 图像编辑能力体验

本地算力不够怎么办?
如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

runninghub.cn Bagel图像编辑体验地址:
https://www.runninghub.cn/ai-detail/1927203767828041730
注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151
通过这个链接第一次注册送1000点,每日登录送100点
最后几句:
BAGEL作为一个强大的开源统一多模态模型,为多模态理解和生成任务带来了新的突破。而ComfyUI-BAGEL则进一步拓展了BAGEL的应用场景,通过可视化的界面和灵活的工作流设计,使得用户可以更加方便地利用BAGEL的能力进行各种任务。无论是电商广告制作、创意设计还是内容创作与教育,ComfyUI-BAGEL都展现出了巨大的潜力和价值。随着技术的不断发展,相信BAGEL和ComfyUI-BAGEL将在更多领域发挥重要作用,为人们的生活和工作带来更多的便利和创新。
以上字节Bagel Moe架构的统一多模态模型的介绍和说明,以及在comfyUI中的实现与体验。以及是closerAI团队制作的stable diffusion comfyUI closerAI开发的closerAI Bagel图像编辑与生成工作流介绍,大家可以根据工作流思路进行尝试搭建。
当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:JimmyMo
更多AI前沿科技资讯,请关注我们:
closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
评论(0)