项目地址:https://showlab.github.io/Kiwi-Edit/

新加坡国立大学(NUS)ShowLab 团队开发的 Kiwi-Edit,是一个旨在通过自然语言指令和参考图像实现多功能视频编辑的统一框架。作为目前计算机视觉领域领先的开源项目,Kiwi-Edit 不仅实现了 720p 高清分辨率下的稳定编辑,还解决了视频编辑中长期存在的“时间一致性”与“精准控制”之间的平衡难题。


## 核心功能:双模态驱动的编辑体验

Kiwi-Edit 的强大之处在于它将自然语言指令视觉参考深度结合,支持以下核心任务:

  • 指令引导式编辑 (Instruction-guided): 用户可以通过简单的口语化描述(如“移走画面中的小鸟”或“将背景换成吉萨金字塔”)进行全局风格迁移或局部内容修改。
  • 参考图像引导 (Reference-guided): 该模型支持从参考图像中提取视觉属性(如背景风格、特定主体特征),并将其无缝融合进目标视频,同时保持原视频的运动轨迹和结构。
  • 高精度局部操作: 支持对视频中的特定人物或物体进行精确的添加、删除或替换,尤其在处理复杂的人物特征描述(如“穿着浅灰色毛衣、领子是深色的男子”)时表现出色。

## 技术架构:MLLM 与 DiT 的协同

Kiwi-Edit 摒弃了单一架构的局限,采用了一种创新的融合方案:

  1. 多模态大语言模型 (MLLM): 充当“大脑”,负责解析复杂的编辑指令并提取参考图像的特征,确立语义引导。
  2. 视频扩散变换器 (DiT): 负责生成,通过注入源视频的潜在特征(Latents)来确保运动和场景布局的稳定性。
  3. 三阶段策略化训练:
    • 第一阶段: 对齐 MLLM 与扩散骨干网络的表示。
    • 第二阶段: 利用大规模图像/视频数据进行规模化指令微调。
    • 第三阶段: 引入参考指引训练,强化视觉细节的控制力。

## 数据集与性能表现

为了提升模型的泛化能力,团队构建了一个包含 47.7万个高质量四元组 的参考视频编辑数据集,该数据集涵盖了从全局到局部的各种编辑场景。

在 OpenVE-Bench 评估中,Kiwi-Edit 在开源方法中脱颖而出:

  • 综合得分第一: 在全局风格、背景变更、局部增删改五个维度上表现均衡。
  • 高清输出: 稳定支持 1280x704 分辨率,在画面细腻度和一致性上优于 ICVE 和 Ditto 等同类模型。

评价: Kiwi-Edit 的开源(代码、模型、数据集全开放)为视频编辑社区树立了新的标杆,为内容创作者和研究者提供了一个强大且可控的创作工具。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。