Bernini 是由字节跳动伯尼尼团队开发的一个统一视频生成和编辑框架。它旨在通过结合语义规划与高性能渲染,实现高可控、高质量的视频内容创作。

以下是该项目的核心要点总结:

1. 核心架构

Bernini 采用“规划+渲染”的双重架构:

  • 基于 MLLM(多模态大语言模型)的语义规划器:负责对输入的文本、图像或视频进行深度推理,生成目标语义嵌入。
  • 基于 DiT(Diffusion Transformer)的渲染器:在 VAE 潜在空间内执行流匹配去噪,完成最终的视频渲染。
  • 关键技术:引入了分段感知 3D 绳索(SA-3D RoPE),能够精确区分和处理来自不同视觉区域的标记,从而增强生成过程的稳定性和一致性。

2. 主要功能能力

该框架支持多种复杂的视频处理任务:

  • V2V(视频编辑):支持丰富的文本驱动编辑,包括风格迁移、对象移除/添加、天气变换、相机视角切换、时间推理以及交互动作编辑等。
  • RV2V(参考引导式编辑):利用参考图片作为视觉引导,精确控制生成结果的物体材质、风格、天气或特定背景。
  • 内容插入(VV2V):支持将图片或视频片段无缝插入到目标视频的特定位置(如标志牌或屏幕中)。
  • R2V(参考视频生成):支持最多五个参考图像作为输入,进行角色造型组合与场景设定,并能保持复杂的环境、姿势及相机运动(如电影式轨道运动)的高度一致性。

3. 项目定位

  • 统一性:将视频生成与编辑整合在同一个框架内。
  • 研发团队:字节跳动伯尼尼团队(Bernini Team)。
  • 发布时间:2026年(arXiv:2605.22344)。

简而言之,Bernini 是一个旨在通过语义规划实现“所想即所得”的视频创作工具,特别擅长在多参考图像输入下保持复杂视觉元素的一致性与电影级质感。

项目地址:https://bernini-ai.github.io/

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。