必须又要点赞！百度ERNIE开源音画同步生成模型！一个高质量、专注同步的联合音视频生成方案！开源界视频生成模型又添一员！赞！-closerAI(未授权)

更多AI前沿科技资讯，请关注我们：closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

【closerAI ComfyUI】必须又要点赞！百度ERNIE开源音画同步生成模型！一个高质量、专注同步的联合音视频生成方案！开源界视频生成模型又添一员！赞！

大家好，我是Jimmy。这应该是国内开年以来在视频生成方面的又一重大消息。

百度ERNIE团队在四月份时，在图像生成方面带来了惊喜：【closerAI ComfyUI】是很强！这波要给满分！百度 ERNIE-Image生成模型为消费级显卡打造！速度与质量的权衡产物！掂！

一直在期待它的图像编辑模型的权重发布，但这次等来的不是它。而是在这两天开源的NAVA音视频模型：面向下一代的音视频生成框架！一个高质量、专注同步的联合音视频生成方案！

NAVA：音视频同步生成模型

NAVA（Native Audio-Visual Alignment）作为百度 ERNIE 团队 2026 年发布的面向下一代的音视频生成框架，其核心价值在于通过架构创新，打破了传统音视频生成中“音画不同步”与“控制力不足”的技术瓶颈。

一、核心价值：为什么它重要？

实现“原生”协同演化传统的音视频生成往往是“先生成视频，再配音”或“多塔架构分别生成再对齐”，这会导致音画节奏不匹配、口型与音频不一致。NAVA 将生成定义为“上下文相关的原生音视频对齐”，让音频和视频共享同一条去噪轨迹，在底层逻辑上实现了高度的时间同步与语义连贯，无需复杂的后期对齐。
降低算力门槛，提升性能上限在参数量仅为 63 亿（6.3B）的情况下，NAVA 展现出了超越众多更大参数规模（如 10B-32B）开源模型的性能表现。这证明了通过优化的架构设计，可以在有限的资源下实现工业级的生成效果。
填补了高质量、精细化可控生成的空白它不仅仅是生成一段视频，而是提供了包括“音色控制”、“口型匹配”、“镜头语言控制”在内的一整套精细化操作空间。这意味着它具备了商用电影、Vlog 创作、交互式数字人等场景的应用潜力。

二、技术亮点：它“强”在哪里？

架构革新：对齐后融合的 MMDiT
分层对齐层 (10 层)在专用的对齐空间内，先建立细粒度的音视频对应关系（通过模态独立 QKV 和联合自注意力机制）。
统一融合层 (20 层)随后进行上下文条件下的去噪。这种“先对齐后融合”的策略，既保证了细粒度的同步，又实现了全局的逻辑一致。
上下文音色条件化 (Contextual Timbre Conditioning)
这是一大突破。通过“上下文路径”，将参考音色线索精确绑定到特定的语音片段（<S>...<E> 标签）。这样既能实现极高相似度的多音色复刻，又不会让音色身份信息干扰到音视频对齐的基础空间。
极致的推理效率与灵活性
序列并行 (SP=8)支持在多卡环境下对单样本进行并行处理，极大提升了生成速度（720p 视频约 1 分钟生成）。
灵活的镜头与多模态控制通过文本描述即可直接控制镜头构图（如环绕、推近）、摄像机运动节奏，且支持从同一个模型检查点输出多种宽高比（横/竖/方）。
强大的提示词工程优化 (Rewrite)
官方配套提供了强大的提示词自动重写工具（利用 Qwen3-4B-Thinking），能将简短的描述扩展为符合电影工业标准的“密集描述”。这不仅是工具，更是一种将人类意图转化为模型“懂”的专业语言的桥梁，极大降低了用户使用门槛。

三、和 Wan2.2、LTX 2.3 比起来怎么样？

目前开源音视频生成里，Wan2.2（尤其是它的TI2V-5B版本）和LTX 2.3是两个绕不开的对手。

Wan2.2的优势在于画面质量和运动自然度。它在图像细节、提示词遵循、物理运动上往往更胜一筹，适合追求电影感的纯视频生成。但它本身不带原生音频，需要额外处理声音，同步问题就得靠后处理解决。生成速度相对较慢，尤其是想做长一点的片子时，迭代成本不低。
LTX 2.3则主打速度和实用性。它有原生音频生成，能一口气出带声音的视频，生成速度明显更快（很多人反馈在相同硬件上能快好几倍），支持更长的时长和竖版输出。这让它在快速迭代草稿、短视频制作上特别香。但代价是画面质量和提示遵循有时会打折扣，运动偶尔显得有点“飘”，音频虽然同步但精细度有限，尤其在复杂对话场景下。

NAVA 的定位则更偏向“同步优先”的极端。它在 Verse-Bench 上，AV同步指标（Sync-C、Sync-D）明显领先LTX 2.3和其它模型，同时视频质量（PQ、FD）也优于LTX和一些更大参数的对手。参数只有6.3B，却在720p分辨率上做到了更好的平衡。

特别值得一提的是它的Timbre-in-Context Conditioning，能用参考音频精准控制说话人的音色，在Seed-TTS评测里，WER和Speaker Similarity接近甚至超过一些专用音频模型。这点是Wan2.2（无原生音频）和LTX 2.3目前都做不到的精细度，尤其适合虚拟主播、多人对话、带情感的叙事视频。

当然，NAVA也不是万能的。目前生成长度以6-10秒为主，更长视频还需要进一步优化；中文密集提示词下效果最好，英文短提示需要rewrite辅助。单卡跑速度一般，推荐多卡Sequence Parallel才能爽起来。

四、它的真正意义和价值

NAVA 最重要的贡献，不是简单地把音频塞进视频生成流程，而是真正推动了“原生协同生成”这个方向。

过去很多方案都是“视频做好了再配音”，结果经常出现唇形不对、动作和声音脱节的问题。NAVA证明了：用更小的模型，通过架构上的巧妙设计（先建专用对齐空间），就能让声音和画面从生成第一步就共同演化。这种思路对整个行业都是有启发的——未来高质量音视频内容，可能不再需要大量后期修同步。

对普通创作者来说，它提供了一个同步强、可控性好、相对轻量的开源方案。尤其在短视频、虚拟数字人、教育内容、游戏叙事这些需要精准音画配合的场景，NAVA的实用价值很高。

总结：

总的来说，NAVA

虽然底层是其它模型但胜在架构创新，不是参数最大、画面最炸的那一个，但它在“音视频真正像一个人一样说话做事”这个关键问题上，往前迈了一大步。这才是联合生成最需要解决的痛点。值得持续关注，剩下的交给社区各位大佬，我也希望有量化模型出来能玩玩体验下。

项目地址：https://ernie-research.github.io/NAVA/

模型地址：https://huggingface.co/robingg1/NAVA

仓库:https://github.com/ernie-research/NAVA

开源代码和权重都在 Hugging Face（robingg1/NAVA）和 GitHub 上放出来了，部署虽然有点门槛，但 Gradio 界面和 prompt rewriter 已经把门槛降了不少。感兴趣的朋友可以去试试，特别是手里有多卡、又对唇同步和音色控制有要求的。

本地算力不够怎么办？

如果本地设备算力不好的小伙伴，推荐使用线上comfyUI来运行体验：runninghub.cn

LTX-23＋ＯmniNFT 图生视频应用体验地址：

https://www.runninghub.cn/ai-detail/2057046158261968897

注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点，每日登录送100点

runningHug上的无限画布，也可以使用GPT image进行生成：

它集成了多个优秀的闭源模型：

在图像与视频生成中，一个节点就能直接调用使用并生成。十分方便，且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得，速度很快。是一个不错的选择。通过注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151 注册后打开无限画面

最后几句：

如果对你有帮助，请一键三连支持下我，感谢

CloserAI AI短剧工作台（本地化解决方案）:
AI短片/短剧Agent工作台

closerAI FlowStudio本地AIGC无限画布创作工具：
CLOSERAI FlowStudio无限画布

closerAI AI绘画大师万象视界：
CLOSERAI VISION万象视界

CLOSERAI POD电商印花批量生产工作站：
https://aigc.douyoubuy.cn/?page_id=420541
印花提取：
https://aigc.douyoubuy.cn/yinhua/

以上是就是本期的分享，当然，更多工作流、资讯、插件、工具也可以在我们closerAI会员站上获取(查看原文)。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：JimmyMo

更多AI前沿科技资讯，请关注我们：closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。