更多AI前沿科技资讯,请关注我们:
【closerAI ComfyUI】是很强!这波要给满分!百度 ERNIE-Image生成模型为消费级显卡打造!速度与质量的权衡产物!掂!

大家好,我是Jimmy。
近两个月陆续的新的图像模型出现,这条赛道也有熟悉的新面孔出现。如京东的joyAI-image:开源AI图像编辑新星来了!京东开源项目JoyAI-Image:让空间智能真正“活”起来,主打空间计算。4月15日百度ERNIE-Image 团队在 Hugging Face 上甩出了他们的开源模型Ernie-image模型。

百度 ERNIE-Image
ERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本转图像生成模型。它基于单流扩散变换器 (DiT) 构建,并搭配轻量级提示增强器,可将简短的用户输入扩展为更丰富的结构化描述。
仅需 80 亿个 DiT 参数,它便达到了开源轻量级文本转图像模型中的领先性能。该模型不仅注重视觉质量,更兼顾实际生成场景中的可控性,在这些场景中,内容的精确实现与美观同样重要。
尤其值得一提的是,ERNIE-Image 在复杂指令跟踪、文本渲染和结构化图像生成方面表现出色,使其非常适合商业海报、漫画、多格布局以及其他需要兼顾视觉质量和精确控制的内容创作任务。此外,它还支持多种视觉风格,包括写实摄影、设计导向的图像以及更具风格化的美学输出。
项目地址:https://huggingface.co/baidu/ERNIE-Image
亮点:
- 紧凑而强大:尽管 ERNIE-Image 的规模只有 8 亿,但在各种基准测试中,它仍然与规模大得多的开放权重模型具有很强的竞争力。
- 文本渲染:ERNIE-Image 在处理密集、长篇幅和对布局敏感的文本时表现尤为出色,使其成为海报、信息图表、类似 UI 的图像和其他文本密集型视觉内容的理想选择。
- 指令执行:该模型能够以很高的可靠性执行涉及多个对象、详细关系和知识密集型描述的复杂提示。
- 结构化生成:ERNIE-Image 特别适用于结构化的视觉任务,例如海报、漫画、故事板和多面板构图,在这些任务中,布局和组织至关重要。
- 风格覆盖范围:除了简洁易读的设计导向型输出外,该模型还支持逼真的摄影和独特的风格化美学,包括更柔和、更具电影感的视觉色调。
- 实际部署:由于其体积小巧,ERNIE-Image 可以在配备 24G VRAM 的消费级 GPU 上运行,这降低了研究、下游应用和模型适配的门槛。
目前开源了两个版本ERNIE-Image 和 ERNIE-Image turbo
ERNIE-Image:SFT 模型,通常在50 个推理步骤内提供更强大的通用能力和指令保真度。
ERNIE-Image-Turbo:Turbo 模型通过DMD 和 RL进行了优化,仅需8 个推理步骤即可实现更快的速度和更高的美观度。
百度 ERNIE-Image 在comfyUI中的实现与体验
目前comfyUI已支持,直接更新版本,在模板中找到示例工作流就行,但这个版本模型有些大加载三个模型的话低显存运行比较吃力,显存在24G左右的可以使用它的示例工作流就行。模型的放置位置如下:

我这里讨论的是如何使用GGUF量化模型来实现。
首先,社区已有GGUF量化模型:
地址:https://huggingface.co/unsloth/ERNIE-Image-Turbo-GGUF/tree/main

同样因为我是8G显存 ,直接下载turbo-Q4K_M版本的模型。大家根据自己设备情况自行选择。下载后放置comfyUI/models/diffusion_models下
文本编码模型:直接在comfyUI-org/ernie-image仓库上下载。

下载后放置comfyUI/models/text_encoders下
注意百度的模型用了flux2的VAE。
以下是closerAI baidu-ernie image工作流,具体如下:

这里我加入了图像反推cliption:【closerAI ComfyUI】快速洗图!高效快速的提示词反推节点——cliption,让洗图出图快人一步不爆显存!。洗图专用的轻量级工具。
工作流使用提示词增加的文本编码模型,会对用户输入的简单的提示词进行优化。
目前百度开源的是文本生成的模型。
测试体验
能力是写字,那我们先测试下写字。
一、提示词:一张极简主义风格的白色海报,正中心用黑色书法字体写着“虚怀若谷”四个大字,周围留白充足。

二、提示词:Prompt: A chalkboard menu in a cozy cafe. At the top, it says "TODAY'S SPECIAL" in large cursive. Below it, a list of items: "Latte $5.00**", "**Mocha $6.50", and "Avocado Toast $12.00". The text should be neat and legible.


三、提示词:A futuristic neon billboard in a rain-slicked city at night. The billboard displays "ERNIE AI 百度" in glowing cyan and pink lights. The reflection of the text is visible on the wet pavement.


四、提示词:A sleek smartphone screen showing a music player interface. The song title "Midnight City" is at the top, the artist name "Baidu Band" is below it in a smaller font. At the bottom, there is a prominent button labeled "PLAY".


五、提示词:
A high-quality 3D render of a fluffy, golden toasted bread. The word "YUMMY" is naturally embossed on the surface of the bread crust. The lighting is warm and cinematic.

下面是直接反推洗图示例测试:
加载一张图:通过cliption反推提示词,然后将反推出来的结果作为文生图的文本提示词输入。





总结一下:这模型到底谁该用?
如果你是以下几类人,ERNIE-Image 绝对值得你拉下来跑一跑:
- 平面设计师: 厌倦了后期还要自己 P 字,想一步到位生成带文字的海报。
- 内容创作者: 需要做分镜、漫画,对画面中物体的数量和位置有严格要求。
- 独立开发者: 显存有限,但又想要追赶 SOTA(业界顶尖)级别的生成效果。
总的来说,ERNIE-Image 并不是一个只会画“糖水片”的花架子,它更像是一个实干派的生产力工具。在 AI 绘图领域,这种向“实用性”和“可控性”转型的趋势,或许才是我们真正期待的。
文本生成兼顾了速度与质量,如果它接着开源图像编辑能力,我个人认为这将是国产最强的存在。
本地算力不够怎么办?
如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

NanoBanana Pro分镜图应用体验地址:
https://www.runninghub.cn/ai-detail/1998278644248272898
注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151
通过这个链接第一次注册送1000点,每日登录送100点
最后几句:
如果对你有帮助,请一键三连支持下我,感谢
CloserAI 3D Pose Editor:http://aigc.douyoubuy.cn/2025/12/03/3448/ closerAI-nanoPrompts: http://closerai.douyoubuy.cn/2025/11/24/3396/ closerAI 分镜设计 软件(exe)本地运行版closerAI 分镜设计 软件(exe)本地运行版 操作说明文档以下是closerAIwater节点:closerAIsorawater Sora 水印移除 ComfyUI 节点分镜分词器节点:closerAI分词器节点说明json结构化提示词 http://aigc.douyoubuy.cn/2025/11/05/3242/
以上是closerAI团队制作的closerAI baidu-ernie image文生图工作流0415的介绍,当然,也可以在我们closerAI会员站上获取(查看原文)。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:JimmyMo
更多AI前沿科技资讯,请关注我们:
closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

评论(0)