【closerAI ComfyUI】通义万相wan2.1两倍加速生成，SageAttention加速注意力计算，速度提升30%！-closerAI(未授权)

更多AI前沿科技资讯，请关注我们：

【closerAI ComfyUI】通义万相wan2.1两倍加速生成，SageAttention加速注意力计算，速度提升30%！

大家好，我是Jimmy。相信最近大家都玩AI视频玩嗨了，特别是comfyUI官方支持wan2.1视频模型之后，工作流简化，同时生成速度得到一定的提升，虽然有所提速，但依旧很慢。我8G显存，用图生视频480P量化模型，跑2秒要7分~8分钟时间。但是！近期，comfyUI劳模KJ大佬，开发了Patch Sage Attention KJ 节点，在comfyUI官方wan2.1工作流中加入这个节点，生成速度直接提升约两倍。

Sage Attention：精确的8位注意力，用于即插即用推理加速

仓库地址：https://github.com/thu-ml/SageAttention/tree/main

以下是论文相关地址，大家有兴趣可查看。

这个仓库提供了SageAttention和SageAttention 2的正式实现。

SageAttention：精确的8位注意力，用于即插即用推理加速论文：https：//arxiv.org/abs/2410.02367 张金涛，魏佳，黄浩锋，张鹏乐，朱军，陈剑飞

SageAttention2：具有彻底的离群值平滑和每线程INT 4量化的高效注意力论文：https：//arxiv.org/abs/2411.10958 Jintao Zhang，Haofeng Huang，Pengle Zhang，Jia Wei，Jun Zhu，Jianfei Chen

SageAttention 是一种高效的量化注意力机制，旨在通过量化技术加速深度学习模型中的注意力计算，同时保持与原始模型相当的精度。

以下是 SageAttention 的主要作用和特点：

1. 加速注意力计算

SageAttention 通过量化（如 INT8 和 FP8）显著提高了注意力机制的计算速度。它在多种 GPU 架构（如 Ampere、Ada 和 Hopper）上实现了优化的内核，能够实现比 FlashAttention2 和 xformers 更快的速度。

速度提升：相比 FlashAttention2 和 xformers，SageAttention 分别实现了 2.1-3.1 倍和 2.7-5.1 倍的速度提升。

硬件兼容性：它支持多种 GPU 架构，包括 NVIDIA 的 Ampere、Ada 和 Hopper 系列，能够在不同硬件上实现高效的计算。

2. 保持精度

SageAttention 在加速的同时，通过以下技术保持了模型的精度：

两层累加策略：在 FP8 MMA 和 WGMMA 中，通过两层累加策略提高精度。

平滑技术：通过量化平滑技术（smoothing）减少量化误差，确保模型的端到端性能不受影响。

INT8 和 FP8 量化：对 QK 和 PV 的计算分别采用 INT8 和 FP8 量化，同时支持不同粒度的量化。

3. 即插即用的加速

SageAttention 提供了即插即用的接口，可以轻松替换现有的注意力实现（如 scaled_dot_product_attention），而无需修改模型的其他部分。

简单替换：通过一行代码替换，可以直接在现有模型中使用 SageAttention，实现加速效果。

兼容性：支持多种输入形状和注意力机制，包括因果注意力（causal attention）和不同序列长度的输入。

4. 支持多种特性

SageAttention 支持以下特性：

稀疏注意力：基于 SageAttention2 的稀疏注意力机制（SpargeAttn）可以进一步加速模型，而无需重新训练。

多线程量化：SageAttention2 引入了每线程量化（per-thread quantization），在保持硬件效率的同时提供更细粒度的量化。

分布式推理：支持 torch.compile 和非 CUDA 图模式推理，适用于大规模分布式推理场景。

5. 实际应用场景

SageAttention 可以广泛应用于需要高效注意力计算的场景，例如：

自然语言处理（NLP）：加速 Transformer 模型的推理，如 GPT、BERT 等。

计算机视觉（CV）：加速视频生成模型（如 CogVideoX）和图像生成模型。

多模态模型：在需要高效注意力机制的多模态任务中，SageAttention 可以显著提升推理速度。

说了这么多，以下是重点啦：SageAttention 的主要作用是通过量化技术加速注意力机制的计算，同时保持模型精度。它通过即插即用的方式，为深度学习模型提供了高效的加速解决方案，适用于多种 GPU 架构和应用场景。

而KJ大佬，就帮我实现了它在comfyUI中的使用。

Patch Sage Attention KJ节点

更新下KJ大佬节点，同时，安装下sageattn。以下以秋叶整合包为例，方法仅供参考啦。

安装sageattn方法：

１、https://github.com/woct0rdho/triton-windows/releases

在以上链接找到对应python的triton轮子文件，下载，放置python目录下。

2、在comfyui python文件夹里 cmd，打开终端，输入：python -m pip install "轮子地址（右键轮子文件，复制文件地址然后粘贴到这里）"，回车。

3、然后还要安装这个库：直接再输入这个命令：python.exe -m pip install SageAttention

4、检查下是否有下载：cuda tools 版本号为： cuda_12.4.1_551.78_windows ，没有的下载安装。不要下载cuda 12.8 ,我试过最新的版本的不行。

其它有问题的报错的，建议大家看下后台，提示找不到的，就是需要下载的。以下大家参考下吧，没有的就安装下吧。closerAI 会员自行在模型库下载，已整理好。

小提示，如果大家不想用这个加速推理的话，可以在秋叶整合包下面框住的位置，重新选回xFormers(推荐)即可。不过，这个适用于图片与视频生成的加速。所以，弄好后，基本生成都会提速。

以下是工作流，加入了Patch Sage Attention后，

这里选择自动即可。

在加入这个节点后，我8G的显卡也尝试生成512*768尺寸的视频生成了。

虽然设备已是硬伤，但在各方面都优化后，也能玩玩。希望大佬们能再迭代下，让8G、16G的设备能在速度方面达到最极致，这样无论对于个人玩家还是整个AIGC市场都利用。毕竟长期使用收费产品是一笔不小支出。

结论，建议大家有能力有时间的可以安装下这个节点，提升视频生成速度。

以上是Sage Attention的介绍以及其在comfyUI中的安装与使用方法介绍，大家可以根据工作流思路进行尝试搭建。

当然，也可以在我们closerAI会员站上获取对应的工作流。

更多AI前沿科技资讯，请关注我们：

隐藏内容

本内容需权限查看

普通用户: 99.9金币
VIP会员: 免费
永久会员: 免费

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

【closerAI ComfyUI】通义万相wan2.1两倍加速生成，SageAttention加速注意力计算，速度提升30%！

安装sageattn方法：

评论(0)

提示：请文明发言取消回复

🚨普通永久会员¥599！ ¥599! 仅剩12个,抢完即止!

永久特别会员拼单活动 ¥799 即可开通!

作者信息

文章展示

【closerAI ComfyUI】最强王炸：文本、图像、视频生成等一网打尽，comfyUI插件节点支持，一套全面的生产力工具方案！强！

必须又要点赞！百度ERNIE开源音画同步生成模型！一个高质量、专注同步的联合音视频生成方案！开源界视频生成模型又添一员！赞！

商业合规！版权安全！Stable Audio 3：开源音频生成的新王者，终于来了！从此，你的创作就是你的音乐！

厉害！8G显存竟然能跑Qwen3.6-35B-A3B多模态模型？低显存配置的本地推理之王：8GB 显存（如 RTX 3070/4060 等）的部署解决方案！

从closerAI-chatLLM节点到统一的AI助理，comfyUI本地轻量化推理解决方案：多平台聚合分发工具

AI短片《妈妈不会用AI》，未来AI再发达，情感沟通与陪伴是AI替代不了的

【closerAI ComfyUI】通义万相wan2.1两倍加速生成，SageAttention加速注意力计算，速度提升30%！

安装sageattn方法：

评论(0)

提示：请文明发言 取消回复

相关文章

🚨普通永久会员¥599！ ¥599! 仅剩12个,抢完即止!

永久特别会员拼单活动 ¥799 即可开通!

作者信息

文章展示

提示：请文明发言取消回复