添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

【closerAI ComfyUI】通义万相wan2.1两倍加速生成,SageAttention加速注意力计算,速度提升30%!

大家好,我是Jimmy。相信最近大家都玩AI视频玩嗨了,特别是comfyUI官方支持wan2.1视频模型之后,工作流简化,同时生成速度得到一定的提升,虽然有所提速,但依旧很慢。我8G显存,用图生视频480P量化模型,跑2秒要7分~8分钟时间。但是!近期,comfyUI劳模KJ大佬,开发了Patch Sage Attention KJ 节点,在comfyUI官方wan2.1工作流中加入这个节点,生成速度直接提升约两倍。

Sage Attention:精确的8位注意力,用于即插即用推理加速

仓库地址:https://github.com/thu-ml/SageAttention/tree/main

以下是论文相关地址,大家有兴趣可查看。

这个仓库提供了SageAttention和SageAttention 2的正式实现。

SageAttention:精确的8位注意力,用于即插即用推理加速 论文:https://arxiv.org/abs/2410.02367 张金涛,魏佳,黄浩锋,张鹏乐,朱军,陈剑飞

SageAttention2:具有彻底的离群值平滑和每线程INT 4量化的高效注意力 论文:https://arxiv.org/abs/2411.10958 Jintao Zhang,Haofeng Huang,Pengle Zhang,Jia Wei,Jun Zhu,Jianfei Chen

SageAttention 是一种高效的量化注意力机制,旨在通过量化技术加速深度学习模型中的注意力计算,同时保持与原始模型相当的精度。

以下是 SageAttention 的主要作用和特点

1. 加速注意力计算

SageAttention 通过量化(如 INT8 和 FP8)显著提高了注意力机制的计算速度。它在多种 GPU 架构(如 Ampere、Ada 和 Hopper)上实现了优化的内核,能够实现比 FlashAttention2 和 xformers 更快的速度。

速度提升:相比 FlashAttention2 和 xformers,SageAttention 分别实现了 2.1-3.1 倍和 2.7-5.1 倍的速度提升。

硬件兼容性:它支持多种 GPU 架构,包括 NVIDIA 的 Ampere、Ada 和 Hopper 系列,能够在不同硬件上实现高效的计算。

2. 保持精度

SageAttention 在加速的同时,通过以下技术保持了模型的精度:

两层累加策略:在 FP8 MMA 和 WGMMA 中,通过两层累加策略提高精度。

平滑技术:通过量化平滑技术(smoothing)减少量化误差,确保模型的端到端性能不受影响。

INT8 和 FP8 量化:对 QK 和 PV 的计算分别采用 INT8 和 FP8 量化,同时支持不同粒度的量化。

3. 即插即用的加速

SageAttention 提供了即插即用的接口,可以轻松替换现有的注意力实现(如 scaled_dot_product_attention),而无需修改模型的其他部分。

简单替换:通过一行代码替换,可以直接在现有模型中使用 SageAttention,实现加速效果。

兼容性:支持多种输入形状和注意力机制,包括因果注意力(causal attention)和不同序列长度的输入。

4. 支持多种特性

SageAttention 支持以下特性:

稀疏注意力:基于 SageAttention2 的稀疏注意力机制(SpargeAttn)可以进一步加速模型,而无需重新训练。

多线程量化:SageAttention2 引入了每线程量化(per-thread quantization),在保持硬件效率的同时提供更细粒度的量化。

分布式推理:支持 torch.compile 和非 CUDA 图模式推理,适用于大规模分布式推理场景。

5. 实际应用场景

SageAttention 可以广泛应用于需要高效注意力计算的场景,例如:

自然语言处理(NLP):加速 Transformer 模型的推理,如 GPT、BERT 等。

计算机视觉(CV):加速视频生成模型(如 CogVideoX)和图像生成模型。

多模态模型:在需要高效注意力机制的多模态任务中,SageAttention 可以显著提升推理速度。

说了这么多,以下是重点啦:SageAttention 的主要作用是通过量化技术加速注意力机制的计算,同时保持模型精度。它通过即插即用的方式,为深度学习模型提供了高效的加速解决方案,适用于多种 GPU 架构和应用场景。

而KJ大佬,就帮我实现了它在comfyUI中的使用。

Patch Sage Attention KJ节点

更新下KJ大佬节点,同时,安装下sageattn。以下以秋叶整合包为例,方法仅供参考啦。

安装sageattn方法:

1、https://github.com/woct0rdho/triton-windows/releases

在以上链接找到对应python的triton轮子文件,下载,放置python目录下。

添加图片注释,不超过 140 字(可选)

2、在comfyui python文件夹里 cmd,打开终端,输入:python -m pip install "轮子地址(右键轮子文件,复制文件地址然后粘贴到这里)",回车。

3、然后还要安装这个库:直接再输入这个命令:python.exe -m pip install SageAttention

4、检查下是否有下载:cuda tools 版本号为: cuda_12.4.1_551.78_windows ,没有的下载安装 。不要下载cuda 12.8 ,我试过最新的版本的不行。

其它有问题的报错的,建议大家看下后台,提示找不到的,就是需要下载的。以下大家参考下吧,没有的就安装下吧。closerAI 会员自行在模型库下载,已整理好。

添加图片注释,不超过 140 字(可选)

小提示,如果大家不想用这个加速推理的话,可以在秋叶整合包下面框住的位置,重新选回xFormers(推荐)即可。不过,这个适用于图片与视频生成的加速。所以,弄好后,基本生成都会提速。

添加图片注释,不超过 140 字(可选)

以下是工作流,加入了Patch Sage Attention后,

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

这里选择自动即可。

在加入这个节点后,我8G的显卡也尝试生成512*768尺寸的视频生成了。

虽然设备已是硬伤,但在各方面都优化后,也能玩玩。希望大佬们能再迭代下,让8G、16G的设备能在速度方面达到最极致,这样无论对于个人玩家还是整个AIGC市场都利用。毕竟长期使用收费产品是一笔不小支出。

结论,建议大家有能力有时间的可以安装下这个节点,提升视频生成速度。

以上是Sage Attention的介绍以及其在comfyUI中的安装与使用方法介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流。

更多AI前沿科技资讯,请关注我们:

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。