更多AI前沿科技资讯,请关注我们:

【closerAI ComfyUI】LTX-2.3 迎来生态完全体!LTX-2.3 + OmniNFT-RL-lora:彻底告别音画不同步!同时提升画质与音质!

大家好,我是Jimmy。这期是关于comfyUI的内容。

LTX2.3生态又增一员猛将:LTX-2.3-OmniNFT-RL-Lora。

先看效果:

它是基于OmniNFT项目训练并适用于LTX2.3的LORA版本。这个LORA有什么特别之处?这就要从OmniNFT这个项目讲起。

一、OmniNFT项目

这是中国科学技术大学、北京大学和京东探索学院联合推出的一个音视频联合生成研究项目,叫 OmniNFT(全称 Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation)。

核心目标是解决当前音视频同步生成里常见的几个顽疾:画面和声音各自的质量保真度、跨模态内容对齐,以及细粒度的时序同步问题。

1、主要痛点

研究团队发现,虽然强化学习(RL)在多模态生成上很有潜力,但直接用在音视频联合任务时会碰到三大实际障碍:

  • 多目标奖励冲突音频和视频的奖励信号经常打架,同一个样本里可能一个模态得分高、另一个却低。
  • 梯度干扰视频分支的梯度容易“串门”到音频的浅层,破坏音频自身的生成特征。
  • 信用分配太粗糙没法重点关注音视频同步这种关键的细粒度区域,优化效率低。

2、三大核心创新

针对这些问题,他们提出了一套模态感知的在线扩散强化学习框架,主要创新有三个:

  1. 模态优势路由(Advantage Routing)把不同模态的奖励优势独立计算,然后分别路由到对应的生成分支,避免“一刀切”导致的冲突。
  2. 逐层梯度手术(Gradient Surgery)在音频的浅层选择性切断视频分支的梯度,保护音频自身的特征,同时在跨模态交互层保留必要的联系。
  3. 区域损失重加权(Loss Reweighting)把优化重点拉到音视频同步和细粒度对齐的关键区域上,让模型更聪明地分配“注意力”。

3、实验效果

他们基于 LTX-2 这个大模型做 backbone,在 JavisBench 和 VBench 等基准上做了测试。结果显示,和原始 LTX-2 相比,OmniNFT 在画面质量、音频质量、跨模态一致性,尤其是音视频同步性(AV-Synchrony)上都有明显提升。

比传统的简单 RL 微调方案效果好得多,在 JavisScore、AVHScore 等关键指标上进步显著。而且整个方法不需要改动模型架构,主要靠算法优化,在显存受限的环境下也比较友好。

4、实际意义

对做 AI 视频短剧、多模态内容生成的团队来说,这提供了一条很实用的路线:在不大幅改动底层模型的前提下,通过精细的强化学习“信用分配”策略,就能显著提高生成内容的自然度和同步感。这是一个在保持模型架构不变的情况下,通过算法优化提升生产质量的高效技术路线。

简单说,就是让 AI 生成的视频和声音更“搭”、更生动,减少那种“画面对不上声音”的割裂感。

二、在comfyUI中的技术实现

社区大佬KJ昨天已基于这个项目开源了LTX-2.3-OmniNFT-RL-Lora。

地址如下:https://huggingface.co/Kijai/LTX2.3_comfy/tree/main/loras

我们直接下载并接入到LTX2.3工作流中即可使用。

接入如下图所示:

生成效果如下:

非常强音画同步的效果,是LTX2.3生态的必备LORA之一。无脑用之。

我在RH上也发布的应用,可在上面使用。


本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

LTX-23+OmniNFT 图生视频应用体验地址

https://www.runninghub.cn/ai-detail/2057046158261968897

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点

runningHug上的无限画布,也可以使用GPT image进行生成:

它集成了多个优秀的闭源模型:

在图像与视频生成中,一个节点就能直接调用使用并生成。十分方便,且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得,速度很快。是一个不错的选择。通过注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151 注册后打开无限画面


最后几句:

如果对你有帮助,请一键三连支持下我,感谢


CloserAI AI短剧工作台(本地化解决方案):
https://aigc.douyoubuy.cn/ai-agent/
closerAI FlowStudio本地AIGC无限画布创作工具:
https://aigc.douyoubuy.cn/closerai-flowstudio/
closerAI AI绘画大师万象视界:
https://aigc.douyoubuy.cn/closerai-vision/
CLOSERAI POD电商印花批量生产工作站:
https://aigc.douyoubuy.cn/?page_id=420541
印花提取:
https://aigc.douyoubuy.cn/yinhua/

以上是就是本期的分享closerAI LTX2.3+ominiNFT lora0520工作流,当然,更多工作流、资讯、插件、工具也可以在我们closerAI会员站上获取(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

隐藏内容
本内容需权限查看
  • 普通用户: 599金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。