在 AIGC 视频领域,我们曾惊叹于 Seedance-2.0 等闭源系统展现出的“理解力”——它们不只是生硬地执行指令,而是能听懂复杂的意图。今天,腾讯混元团队联合浙大、南洋理工正式开源了 OmniWeaving,这标志着开源社区终于拥有了一个具备强推理、自由组合能力的全能型视频生成框架。

一、 核心进化:它不只是“画画”,它会“思考”
以往的视频模型(如早期 DiT 架构)多是“被动型”:你给一段 Prompt,它努力去匹配像素。但当面对“让图中的角色走进那段背景视频并换上中式礼服”这类复杂指令时,模型往往会“CPU烧了”。
OmniWeaving 的破局之道在于它的 MLLM + MMDiT 双引擎架构:
- 激活“思考模式” (Thinking Mode): 模型内置的 MLLM 不再只是一个特征提取器,而是一个推理器。开启
--think参数后,它会先推导用户的真实意图,生成中间推理步骤,提炼出语义更精确的“增强提示词”,再交给生成引擎。 - 隐藏状态深度堆叠: 借鉴了 Qwen3-VL 的思路,OmniWeaving 从 MLLM 的多个中间层提取信息,将“细粒度纹理”到“高层抽象逻辑”特征全部注入到生成过程的前几层,保证了极高的语义对齐度。
二、 全能工具箱:这 6 大任务全是“工业级”
OmniWeaving 真正做到了“All-in-One”,以下几个任务标志着它在实际生产环境中的巨大潜力:
| 任务标志 | 核心能力 | 产品经理视角下的价值 |
|---|---|---|
| t2v / i2v | 文/图生视频 | 基础款,但配合 think 模式逻辑更稳。 |
| interpolation | 关键帧转视频 | 给定首尾两张图,模型补全中间动作,动画补帧神器。 |
| reference2v | 多图参考合成 | 支持 1-4 张参考图,解决角色一致性问题的核心方案。 |
| editing | 视频指令编辑 | 像改图一样改视频,支持风格迁移和局部物体替换。 |
| tiv2v | 混合编辑 | 最强功能。把 A 图的人放入 B 视频,并按 C 指令动作。 |
四、 总结:开源视频生成的“分水岭”
OmniWeaving 的开源不仅仅是放出了一个权重,它更像是一个视频生成的智能中枢。通过将 MLLM 的推理能力深度融合进 DiT 流程,它解决了“生成的视频逻辑混乱”这一顽疾。
如果你正在开发 ComfyUI 自定义节点,或者在构建像 CloserAI 这样的垂直行业解决方案,OmniWeaving 的 reference2v 和 tiv2v 绝对是目前最值得研究的“底座”。
项目地址: https://github.com/Tencent-Hunyuan/OmniWeaving
评测基准: IntelligentVBench
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)