添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

【closerAI ComfyUI】对标GPT-4o!字节跳动黑科技BAGEL开源:MoE统一多模态模型!社区量化版消费显卡可玩!

添加图片注释,不超过 140 字(可选)

大家好,我是Jimmy。2025年5月20日,字节跳动开源了它新的项目Bagel:采用混合专家(MoE)架构的统一多模态模型。它具备强大的多模态理解和生成能力,能够处理图像和文本的混合输入与输出,在多个领域展现出卓越的性能。

添加图片注释,不超过 140 字(可选)

BAGEL:开源统一多模态模型

Bagel(内部代号)是字节跳动AI实验室(ByteDance AI Lab)主导的纯文本预训练大语言模型项目,与面向多模态的豆包(Doubao)模型并列,构成字节大模型技术矩阵的核心部分。其名称可能源自“ByteDance AI Generative Enhanced Language-model”的缩写,强调其在文本生成与理解领域的专项突破。

BAGEL是全球首个开源统一多模态模型,支持微调、蒸馏与跨平台部署。其原生多模态架构提供媲美GPT-4o和Gemini 2.0的功能,同时具备精准、高保真、照片级图像生成能力,彻底打破闭源模型的垄断格局。

项目相关链接:
添加图片注释,不超过 140 字(可选)

1、关键特征与技术架构

添加图片注释,不超过 140 字(可选)
  • 专注文本赛道:区别于豆包模型的多模态能力,Bagel聚焦于纯文本任务优化在长文本理解、逻辑推理、代码生成等场景针对性提升性能,目标对标GPT-4、Claude等国际顶尖文本模型。
  • MoE架构降本增效:根据技术社区爆料(如知乎、脉脉),Bagel采用混合专家系统(Mixture of Experts, MoE)架构,通过动态路由机制激活部分参数处理任务,显著降低训练与推理成本,同时保持千亿级参数量规模。
  • 高性能基座模型:2024年初,字节内部测试数据显示,Bagel在中文权威基准(如C-Eval、Gaokao-Bench)及英文MMLU上的表现接近GPT-4-Turbo水平,尤其在法律、金融等专业领域表现突出。

2、六大核心能力

添加图片注释,不超过 140 字(可选)
能力技术原理应用场景示例
Chat继承大语言模型推理能力,支持多轮图文对话艺术史分析(如解析大卫雕像细节)
Generation基于视频-网页交错数据生成高保真图像/视频帧魔法药瓶的写实图像生成
Editing从视频中学习视觉运动规律,实现身份保持的精细编辑人物动作修改(蹲下摸狗头→站立举手)
Style Transfer最小对齐数据实现跨风格迁移真实照片→3D 动画风格转换
Navigation从真实世界视频蒸馏导航知识,支持科幻/艺术场景路径规划第一视角环境移动控制
Thinking多模态思维链(CoT)推理,将简单提示扩展为详细生成指令“小车组成的大车”概念具象化实现

3、性能优势

标准多模态理解任务中,BAGEL表现出色,超越了当前许多顶级开源视觉语言模型(VLMs),如Qwen2.5-VL和InternVL-2.5。它能够准确地理解图像和文本中的信息,并进行合理的推理和回答。

添加图片注释,不超过 140 字(可选)

文本到图像生成方面,BAGEL的质量与专业的图像生成器(如SD3)相媲美。它可以根据用户提供的文本描述生成高质量、逼真的图像,满足各种创意设计需求。

添加图片注释,不超过 140 字(可选)

comfyUI BAGEL:在comfyUI中实现与体验

打开我们(closerai.douyoubuy.cn)comfyUI节点助手,搜索:bagel,筛选出两个结果。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

官方更推荐:筛选结果的第一个:

添加图片注释,不超过 140 字(可选)

我们点击AI文档:

添加图片注释,不超过 140 字(可选)

形成AI文档:

添加图片注释,不超过 140 字(可选)

我们输入提问:如何安装。

添加图片注释,不超过 140 字(可选)

以下AI返回的安装步骤:

添加图片注释,不超过 140 字(可选)

自动下载机制

如果模型文件不存在,系统会自动尝试下载。代码中的 BagelModelLoader 类会检查本地模型文件,如果缺失会自动触发下载。

安装完成后,您可以在 ComfyUI 中找到 BAGEL 相关的节点,包括 BagelModelLoader、BagelTextToImage、BagelImageEdit 和 BagelImageUnderstanding。扩展支持文本生成图像、图像编辑和图像理解三种主要功能。

comfyUI Bagel:https://github.com/neverbiasu/ComfyUI-BAGEL

对显存VRAM的要求说明

生成1024×1024图像的官方建议是超过80GB的GPU内存。但是,多GPU设置可以分配内存负载。举例来说:

  • 单个GPU:A100(40 GB)每幅图像大约需要340-380秒。
  • 多GPU:3个RTX3090 GPU(每个24GB)在大约1分钟内完成任务。
  • 压缩模型:使用DFloat11版本只需要22GB VRAM,可以在单个24GB GPU上运行,峰值内存使用量约为21.76GB(A100),生成时间约为58秒。
添加图片注释,不超过 140 字(可选)

社区量化的Bagel DFloat11 版本能在24G显卡上运行。满足需求的小伙伴尝试。模型已经打包,会员小伙伴在模型库下载。其它小伙伴在以下链接下载量化版的BAGEL dfloat11版本:

https://github.com/QijiTec/ComfyUI-REDBAGEL-dfloat11

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

这是上面节点分支。里面有详细说明安装节点。大家下载这个节点和量化模型使用。

虽然本地部署吃配置,但我们也能够在RH 云comfyUI上玩。我们要注意,因为它是7B激活,原本是14B。所以字节团队开源的应该还不是满血版的。

添加图片注释,不超过 140 字(可选)

Bagel comfyUI工作流

1、bagel 图像生成能力体验

在RH上搭建并使用BAGEL,我们先尝试bagel的图像生成能力:comfyUI bagel的使用很简单。拉出图像生成节点。如下图示:

添加图片注释,不超过 140 字(可选)

在输入框中输入提示词生成。

这里我懒得写,使用我们的AI绘画助手进行反推提示词。

添加图片注释,不超过 140 字(可选)

复制英文提示词,

A woman wearing a green leaf-shaped mask with sunglasses, a matching cropped top and short skirt with a floral pattern.  She's wearing olive green high-heeled sandals. The background features pastel pink and green shapes.  The style is whimsical and fashion-forward.

粘贴到工作流输入框中,执行:

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

跑了5分钟。

得出这个结果:

添加图片注释,不超过 140 字(可选)

模糊。官方有说明如果模糊的解决方法:

添加图片注释,不超过 140 字(可选)

好吧,调整下参数。cfg renorm min设置成0看看

添加图片注释,不超过 140 字(可选)

在等待时候,我使用我们的AI绘画助手同样提示词生成一个:

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

AI绘画助手我使用的是flux shell模型,这是shell flux版的跑图结果。

大约7分钟后:Bagel生成的图像:

添加图片注释,不超过 140 字(可选)

可见质量很不错。就是加载模型有点久。跑图时间有点长。

2、bagel 图像编辑能力体验

添加图片注释,不超过 140 字(可选)

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

runninghub.cn Bagel图像编辑体验地址:

https://www.runninghub.cn/ai-detail/1927203767828041730

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

BAGEL作为一个强大的开源统一多模态模型,为多模态理解和生成任务带来了新的突破。而ComfyUI-BAGEL则进一步拓展了BAGEL的应用场景,通过可视化的界面和灵活的工作流设计,使得用户可以更加方便地利用BAGEL的能力进行各种任务。无论是电商广告制作、创意设计还是内容创作与教育,ComfyUI-BAGEL都展现出了巨大的潜力和价值。随着技术的不断发展,相信BAGEL和ComfyUI-BAGEL将在更多领域发挥重要作用,为人们的生活和工作带来更多的便利和创新。

以上字节Bagel Moe架构的统一多模态模型的介绍和说明,以及在comfyUI中的实现与体验。以及是closerAI团队制作的stable diffusion comfyUI closerAI开发的closerAI Bagel图像编辑与生成工作流介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。