添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

http://aigc.douyoubuy.cn/

【closerAI ComfyUI】注意力引导开外挂!NAG:归一化注意力引导,让扩散模型效果又准又稳,可控性直接拉满!

大家好,我是Jimmy。AI绘画、AI视频领域的技术发展在今年真是突飞猛进。很多模型和技术迸发出来。像AI视频生成模型wan2.1,它虽然是开源界目前说是最好的模型,但是呢,在生成结果总会有不如意的,老是达不到我们想要的效果。今天介绍一个在绘画与视频生成领域能使用的,并且能很好地引导生成的技术NAG。

作用:少步扩散模型中通常缺乏对 CFG 的支持,导致负向引导无效的问题,恢复了有效的负向提示功能,实现对视觉、语义和风格。

效果:

一、作用在AI绘画中:

提示语:

一条飘逸的裙子在海面上飘动。

负面提示:

女人

添加图片注释,不超过 140 字(可选)

提示语:

一只戴着花冠的柯基犬。

负面提示:

粉色和白色的花。

添加图片注释,不超过 140 字(可选)

提示语:

一位女士的特写肖像,午后柔和温暖的光线透过百叶窗照射在她的脸上,在她的脸上留下了引人注目的阴影图案。她有一个自然的,发光的皮肤与露水。背景以柔和的青色墙壁为特色,增强了场景的温暖。她穿着一件深色细条纹运动夹克,增添了一丝优雅。整体美学是超现实主义的,捕捉复杂的细节,如她的皮肤纹理和微妙的光与影的发挥,与温暖的中性和柔和的粉彩调色板。

负面提示:

分辨率低,模糊。

添加图片注释,不超过 140 字(可选)

二、作用在视频生成中的效果:

这里我直接用GIF来展示视频效果了:左边是没加NAG引导的,右边是加了NAG的结果:

添加图片注释,不超过 140 字(可选)

NAG:归一化注意力引导,

Normalized Attention Guidance (NAG) 是一种针对扩散模型的通用负向引导技术,主要解决少步采样中Classifier-Free Guidance (CFG) 负向引导无效的问题。

少步扩散模型虽能快速推理,但通常缺乏对CFG的支持,导致负向引导失效,而NAG可恢复有效的负向提示功能,实现对视觉、语义和风格属性的直接抑制,从而增强模型可控性,拓展创作自由度。

项目链接:https://chendaryen.github.io/NAG.github.io/

添加图片注释,不超过 140 字(可选)

技术方法

  1. 核心操作空间:在注意力空间中进行操作。
  2. 具体步骤: 对正负特征 Z⁺和 Z⁻进行外推。 进行 L1-based 归一化。 进行 α-blending(混合)。
  3. 作用机制:通过上述操作约束特征偏差,抑制流形外漂移,实现稳定可控的引导。
添加图片注释,不超过 140 字(可选)

计算成本对比

添加图片注释,不超过 140 字(可选)

与 CFG 相比,NAG 仅对交叉注意力层或 MM-DiT 块应用额外计算,无需像 CFG 那样使采样步骤的计算量翻倍,在多个模型中均表现出显著更低的额外推理时间。

添加图片注释,不超过 140 字(可选)

关键问题

1)NAG 解决了扩散模型中的什么关键问题?

答:NAG 解决了少步扩散模型中通常缺乏对 CFG 的支持,导致负向引导无效的问题,恢复了有效的负向提示功能,实现对视觉、语义和风格属性的直接抑制。

2)NAG 与传统 CFG 在技术方法上的主要区别是什么?

答:传统 CFG 通过在每个去噪步骤中对正负条件输出进行外推来实现负向引导,而 NAG 在注意力空间中操作,对正负特征进行外推、L1 归一化和 α 混合,约束特征偏差,抑制流形外漂移,实现稳定可控的引导。

3)NAG 在计算成本上相比 CFG 有何优势?

答:CFG 需要使采样步骤的计算量翻倍,而 NAG 仅对交叉注意力层或 MM-DiT 块应用额外计算,在 Wan2.1 模型中,NAG 额外推理时间仅为 12%,远低于 CFG 的 100%;在 SD3.5-Large 模型中,NAG 额外推理时间为 43%,也显著低于 CFG 的 95%,在多个模型中均表现出计算成本优势。

添加图片注释,不超过 140 字(可选)

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

runninghub.cn 变身漫威英雄(fusionT2V+VACE)体验地址:

https://www.runninghub.cn/ai-detail/1933007792611491841

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

技术是有了,但在comfyUI中暂时还没有开源节点来实现。我们可以持续关注这个技术,只要对生成结果有好处的技术,相信要么就是comfyUI官方来整合,要么就是大佬们开发节点来接入comfyUI中,相信会有的。

以上NAG归一化注意力引导技术的介绍和效果展示。

当然,更多AIGC资讯和技术或工作流也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

http://aigc.douyoubuy.cn/

添加图片注释,不超过 140 字(可选)

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。