Prompt Relay 是由南洋理工大学 S-Lab 团队(Gordon Chen, Ziqi Huang, Ziwei Liu)开发的一个针对多事件视频生成的创新项目。
项目地址:https://gordonchen19.github.io/Prompt-Relay/
以下是该项目的核心总结:
1. 核心定位
Prompt Relay 是一种推理时(Inference-time)、**无需训练(Training-free)且即插即用(Plug-and-play)**的方法。它旨在解决现有视频生成模型在处理包含多个连续事件的长描述时,缺乏细粒度时间控制的问题。
2. 主要功能:时间维度精准控制
- 分段路由: 用户可以为视频的不同时间段(tstarttstart 到 tendtend)指定不同的文本提示词(Prompt)。
- 确保顺序与时长: 该方法能确保每个动作或事件在设定的时间区间内准确发生。
- 全局连贯性: 在保证每个提示词仅影响其指定的时间区域的同时,维持整个视频的全局逻辑和视觉连贯性。
3. 技术优势
- 消除干扰: 传统模型在处理多事件提示词时,不同时间点的语义容易在交叉注意力(Cross-attention)空间产生干扰。Prompt Relay 通过“接力”机制抑制了这种干扰,让模型能更专注地处理当前时间段的语义。
- 画质提升: 实验观察到,该方法不仅增强了控制力,还因为减少了语义竞争而提升了视频的整体视觉质量。
- 兼容性强: 目前已集成到开源模型 Wan 2.2 中。
4. 性能表现
根据项目介绍,当 Wan 2.2 结合 Prompt Relay 后,其在多事件视频生成方面的表现显著增强,能够与 Kling 3.0(可灵) 和 Veo 3.1 等顶尖闭源模型相媲美。
5. 应用场景示例
- 复杂动作衔接: 例如“小男孩先躺在床上看天花板,然后翻身跳床,最后跑去玩飞机模型”的一连串精准动作。
- 场景大转场: 例如从鹰眼的微观视角缩放到网络城市,再拉远镜头显示这是一台旧电视里的画面,实现极其复杂的空间与叙事转场。
总结来说,Prompt Relay 为视频生成提供了一种高效的“导演手册”,让创作者能够像剪辑视频一样,精准地在时间轴上安排视频内容的演变。
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)