北京大学字节跳动Canva成都安努智能的研究团队联合打造,Helios 正式亮相。这是一款拥有 14B(140亿)参数的自回归扩散模型,它彻底打破了“大模型必然慢”的固有印象,实现了在单个 NVIDIA H100 GPU 上以 19.5 FPS 的速度生成分钟级长视频。

项目的核心理念非常直感:“一个 14B 的实时模型可以比 13B 模型更便宜、更快,但性能更强大。”


🚀 核心技术突破:不走寻常路

Helios 的诞生并非单纯堆砌算力,而是在算法架构上进行了深度的“减负”与“增效”,主要体现在以下三个维度:

  1. 告别漂移启发式方法: 长视频生成中最头疼的就是“画面崩坏”或“漂移”。Helios 无需使用自强制(Self-forcing)、误差库或关键帧采样等常用技巧,通过在训练中显式模拟漂移并消除重复运动,从源头保证了长视频的稳定性。
  2. 无需标准加速技术即可实时: 令人惊讶的是,Helios 在不依赖 KV-cache(键值缓存)量化稀疏注意力机制的情况下,依然达到了实时生成的水平。它通过大幅压缩历史噪声上下文和减少采样步数,将计算成本降至与 1.3B 模型相当甚至更低的水平。
  3. 极致的内存优化: 该模型支持在无需并行或分片框架的情况下进行训练。这意味着在仅 80GB 的 GPU 显存内,可以同时运行多达四个 14B 模型,极大地降低了开发与部署的门槛。

📊 性能表现:速度与质量的巅峰

在端到端吞吐量测试中,Helios 展现出了压倒性的优势:

模型规模推理速度 (H100)端到端表现
Helios (14B)19.5 FPS显著快于同类规模模型,媲美精简版小模型
其他 14B 基线较低存在延迟,生成长视频易漂移
1.3B 精简模型15-20 FPS速度相近,但画面细节与理解力远逊于 Helios

🎨 全能创作:从短片到分钟级巨作

Helios 原生支持 T2V(文本转视频)I2V(图像转视频) 以及 V2V(视频转视频) 任务。官方展示了多组令人惊叹的案例:

  • 超长视频(1449帧): 无论是宇航员在盐漠中前行的电影预告片,还是热带鱼在珊瑚礁中穿梭的自然纪录片,Helios 都能保持极高的逻辑连贯性。
  • 互动与创意: 支持赛博朋克风的纽约水下都市、穿着紫色背带裤在孟买漫步的小袋鼠,甚至是维京海盗驾驶现代公交车的荒诞场景。
  • 图像转视频: 能将静态的阿联酋航空 A380 飞行动作、金门大桥的落日余晖完美转化为流畅的动态影像。

🔗 项目资源

目前,研究团队已将该项目开源,旨在推动视频生成社区的进一步发展。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。