【closerAI ComfyUI】太牛逼了！wavespeed延续“加速”赛道高潮！一体化的推理优化解决方案，通用，灵活，快速

【closerAI ComfyUI】太牛逼了！wavespeed延续“加速”赛道高潮！一体化的推理优化解决方案，通用，灵活，快速

资源分类: comfyUI工作流

浏览热度: (91)

发布时间: 2025-01-09

最近更新: 2025-02-06

本资源需权限下载

普通用户: 99.9金币
VIP会员: 免费
永久会员: 免费

添加图片注释，不超过 140 字（可选）

更多AI前沿科技资讯，请关注我们：http://aigc.douyoubuy.cn/

【closerAI ComfyUI】太牛逼了！wavespeed延续“加速”赛道高潮！一体化的推理优化解决方案，通用，灵活，快速！

大家好，我是Jimmy。太震撼了兄弟们。上一期我们刚介绍完加速推理新王者——teacache，才刚上一天不到，圈里又炸出一个站在它肩膀上起飞的加速推理小王子——wavespeed!直接提升10倍速度。

上期介绍的teacache：【closerAI ComfyUI】太炸裂了！小节点大能量，一个能让FLUX生图、混元视频速度直线提升的技术！又快又好又简单！

我们已知在工作流中加入teacache的节点能提升1.4~2倍加速推理。

今天要介绍的是Comfy-WaveSpeed

Comfy-WaveSpeed 介绍

comfyUI地址：https://github.com/chengzeyi/Comfy-WaveSpeed/tree/main

ComfyUI的一体化推理优化解决方案，通用，灵活，快速。

它的原理是：

受TeaCache和其他去噪缓存算法的启发，引入了第一块缓存（FBCache），使用第一个Transformer块的残差输出作为该高速缓存指示器。如果当前和第一个Transformer块的先前残差输出之间的差足够小，则可以重用先前的最终残差输出，并跳过所有后续Transformer块的计算。这可以显著降低模型的计算成本，在保持高精度的同时实现高达2倍的加速。

主要有两个节点：

节点一：Apply First Block Cache

要使用第一个块缓存，只需将wavespeed->Apply First Block Cache节点添加到您的工作流中的Load Diffusion Model节点之后，并将residual_diff_threashold值调整为适合您的模型的值，0.12用于flux-dev.safetensors，带有fp8_e4m3fn_fast和28个步骤。预计将看到1.5倍到3.0倍的加速，精度损失可接受。

节点作者给出以下参数值：

添加图片注释，不超过 140 字（可选）

节点接入方法如下：

添加图片注释，超 140 字（可选）

节点二：增强torch.compile

要使用增强的torch.compile，只需将wavespeed->Compile Model+节点添加到您的工作流中的Load Diffusion Model节点或Apply First Block Cache节点之后。编译过程发生在您第一次运行工作流时，它需要相当长的时间，但它将被缓存以供将来运行。您可以传递不同的mode值以使其运行得更快，例如max-autotune或max-autotune-no-cudagraphs。与原始TorchCompileModel节点相比，该节点的优势之一是它与LoRA一起工作。

添加图片注释，不超过 140 字（可选）

值得注意的是：torch.compile可能无法很好地处理模型卸载，您可以尝试在启动--gpu-only时传递ComfyUI以禁用模型卸载。

安装方法很简单了，没有太多复杂性，这里不介绍了。

先更新comfyUI，下载这个节点，解压放到comfyUI\custom_nodes\下。

以下是作者测试的结果：

添加图片注释，不超过 140 字（可选）

左边是原生生图速度，17s，右边是加入该节点后的生图速度：6s

我们也测试了一下：拉了一个 teacache与wavespeed测试的工作流：

添加图片注释，不超过 140 字（可选）

我们固定了随机种子。用的底模型是：flux fp8原生的，剪枝类型是默认。

在teacache中我们加速值 rel_l1_thresh值为0.4 。这是无损推理1.5倍提速。如果是1的话会有损失。我们选折中的来对比。

添加图片注释，不超过 140 字（可选）

以下teacache是生图结果：用时1分54秒

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

wavespeed中，我们这样接入，参数如下：我们用它默认值即可。

添加图片注释，不超过 140 字（可选）

以下是结果：1分35秒。

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

我们可见两者在生图质量相当的情况下，生图速度用时有点出入了。wavespeed会快一点点啦。

但整体上，跟我此前不用量化模型，直接用原生flux fp8的3半~4多的时间，直接节省了一半多。这里我就不测试原生生图速度了，我的配置是4060ti 8G啦。大家作参考就是。

添加图片注释，不超过 140 字（可选）

结论：

二者都是在缓存上作优化从而实现提速。大家其实两个都可以用。大家可以多尝试它的值，找到符合自己配置的参数。

加载时会有点久，但整体不算久，在多次抽卡时，它的速度就会快。多次抽时，生图速度控制在1分钟

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

以上是closerAI团队对两个动态缓存加速推理方法的介绍和测试，大家可以根据工作流思路进行尝试搭建。当然，也可以在我们closerAI会站上获取应的工作流。

更多AI前沿科技资讯，请关注我们：http://aigc.douyoubuy.cn/

隐藏内容

本内容需权限查看

普通用户: 99.9金币
VIP会员: 免费
永久会员: 免费

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

付款后无法显示下载地址或者无法查看内容？

如果您已经成功付款但是网站没有弹出成功提示，请联系站长提供付款信息为您处理。
购买该资源后，可以退款吗？

资源属于虚拟商品，具有可复制性，可传播性，一旦授予，不接受任何形式的退款、换货要求。请您在购买获取之前确认好是您所需要的资源

评论(0)

提示：请文明发言取消回复