更多AI前沿科技资讯,请关注我们:

https://aigc.douyoubuy.cn

【closerAI ComfyUI】是很强!这波要给满分!百度 ERNIE-Image生成模型为消费级显卡打造!速度与质量的权衡产物!掂!

添加图片注释,不超过 140 字(可选)

大家好,我是Jimmy。

近两个月陆续的新的图像模型出现,这条赛道也有熟悉的新面孔出现。如京东的joyAI-image:开源AI图像编辑新星来了!京东开源项目JoyAI-Image:让空间智能真正“活”起来,主打空间计算。4月15日百度ERNIE-Image 团队在 Hugging Face 上甩出了他们的开源模型Ernie-image模型。

添加图片注释,不超过 140 字(可选)

百度 ERNIE-Image

ERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本转图像生成模型。它基于单流扩散变换器 (DiT) 构建,并搭配轻量级提示增强器,可将简短的用户输入扩展为更丰富的结构化描述。

仅需 80 亿个 DiT 参数,它便达到了开源轻量级文本转图像模型中的领先性能。该模型不仅注重视觉质量,更兼顾实际生成场景中的可控性,在这些场景中,内容的精确实现与美观同样重要。

尤其值得一提的是,ERNIE-Image 在复杂指令跟踪、文本渲染和结构化图像生成方面表现出色,使其非常适合商业海报、漫画、多格布局以及其他需要兼顾视觉质量和精确控制的内容创作任务。此外,它还支持多种视觉风格,包括写实摄影、设计导向的图像以及更具风格化的美学输出

项目地址:https://huggingface.co/baidu/ERNIE-Image

亮点:

  1. 紧凑而强大:尽管 ERNIE-Image 的规模只有 8 亿,但在各种基准测试中,它仍然与规模大得多的开放权重模型具有很强的竞争力。
  2. 文本渲染:ERNIE-Image 在处理密集、长篇幅和对布局敏感的文本时表现尤为出色,使其成为海报、信息图表、类似 UI 的图像和其他文本密集型视觉内容的理想选择。
  3. 指令执行:该模型能够以很高的可靠性执行涉及多个对象、详细关系和知识密集型描述的复杂提示。
  4. 结构化生成:ERNIE-Image 特别适用于结构化的视觉任务,例如海报、漫画、故事板和多面板构图,在这些任务中,布局和组织至关重要。
  5. 风格覆盖范围:除了简洁易读的设计导向型输出外,该模型还支持逼真的摄影和独特的风格化美学,包括更柔和、更具电影感的视觉色调。
  6. 实际部署:由于其体积小巧,ERNIE-Image 可以在配备 24G VRAM 的消费级 GPU 上运行,这降低了研究、下游应用和模型适配的门槛。

目前开源了两个版本ERNIE-Image 和 ERNIE-Image turbo

ERNIE-Image:SFT 模型,通常在50 个推理步骤内提供更强大的通用能力和指令保真度。

ERNIE-Image-Turbo:Turbo 模型通过DMD 和 RL进行了优化,仅需8 个推理步骤即可实现更快的速度和更高的美观度。

百度 ERNIE-Image 在comfyUI中的实现与体验

目前comfyUI已支持,直接更新版本,在模板中找到示例工作流就行,但这个版本模型有些大加载三个模型的话低显存运行比较吃力,显存在24G左右的可以使用它的示例工作流就行。模型的放置位置如下:

添加图片注释,不超过 140 字(可选)

我这里讨论的是如何使用GGUF量化模型来实现。

首先,社区已有GGUF量化模型:

地址:https://huggingface.co/unsloth/ERNIE-Image-Turbo-GGUF/tree/main

添加图片注释,不超过 140 字(可选)

同样因为我是8G显存 ,直接下载turbo-Q4K_M版本的模型。大家根据自己设备情况自行选择。下载后放置comfyUI/models/diffusion_models下

文本编码模型:直接在comfyUI-org/ernie-image仓库上下载。

添加图片注释,不超过 140 字(可选)

下载后放置comfyUI/models/text_encoders下

注意百度的模型用了flux2的VAE。

以下是closerAI baidu-ernie image工作流,具体如下:

添加图片注释,不超过 140 字(可选)

这里我加入了图像反推cliption:【closerAI ComfyUI】快速洗图!高效快速的提示词反推节点——cliption,让洗图出图快人一步不爆显存!。洗图专用的轻量级工具。

工作流使用提示词增加的文本编码模型,会对用户输入的简单的提示词进行优化。

目前百度开源的是文本生成的模型。

测试体验

能力是写字,那我们先测试下写字。

一、提示词:一张极简主义风格的白色海报,正中心用黑色书法字体写着“虚怀若谷”四个大字,周围留白充足。

添加图片注释,不超过 140 字(可选)

二、提示词:Prompt: A chalkboard menu in a cozy cafe. At the top, it says "TODAY'S SPECIAL" in large cursive. Below it, a list of items: "Latte $5.00**", "**Mocha $6.50", and "Avocado Toast $12.00". The text should be neat and legible.

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

三、提示词:A futuristic neon billboard in a rain-slicked city at night. The billboard displays "ERNIE AI 百度" in glowing cyan and pink lights. The reflection of the text is visible on the wet pavement.

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

四、提示词:A sleek smartphone screen showing a music player interface. The song title "Midnight City" is at the top, the artist name "Baidu Band" is below it in a smaller font. At the bottom, there is a prominent button labeled "PLAY".

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

五、提示词:

A high-quality 3D render of a fluffy, golden toasted bread. The word "YUMMY" is naturally embossed on the surface of the bread crust. The lighting is warm and cinematic.

添加图片注释,不超过 140 字(可选)

下面是直接反推洗图示例测试:

加载一张图:通过cliption反推提示词,然后将反推出来的结果作为文生图的文本提示词输入。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

总结一下:这模型到底谁该用?

如果你是以下几类人,ERNIE-Image 绝对值得你拉下来跑一跑:

  • 平面设计师: 厌倦了后期还要自己 P 字,想一步到位生成带文字的海报。
  • 内容创作者: 需要做分镜、漫画,对画面中物体的数量和位置有严格要求。
  • 独立开发者: 显存有限,但又想要追赶 SOTA(业界顶尖)级别的生成效果。

总的来说,ERNIE-Image 并不是一个只会画“糖水片”的花架子,它更像是一个实干派的生产力工具。在 AI 绘图领域,这种向“实用性”和“可控性”转型的趋势,或许才是我们真正期待的。

文本生成兼顾了速度与质量,如果它接着开源图像编辑能力,我个人认为这将是国产最强的存在。


本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

NanoBanana Pro分镜图应用体验地址

https://www.runninghub.cn/ai-detail/1998278644248272898

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

如果对你有帮助,请一键三连支持下我,感谢


CloserAI 3D Pose Editor:http://aigc.douyoubuy.cn/2025/12/03/3448/
closerAI-nanoPrompts:
http://closerai.douyoubuy.cn/2025/11/24/3396/
closerAI 分镜设计 软件(exe)本地运行版
closerAI 分镜设计 软件(exe)本地运行版 操作说明文档
以下是closerAIwater节点:
closerAIsorawater Sora 水印移除 ComfyUI 节点
分镜分词器节点:
closerAI分词器节点说明
json结构化提示词 http://aigc.douyoubuy.cn/2025/11/05/3242/

以上是closerAI团队制作的closerAI baidu-ernie image文生图工作流0415的介绍,当然,也可以在我们closerAI会员站上获取(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 199金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。