由北京大学、字节跳动、Canva及成都安努智能的研究团队联合打造,Helios 正式亮相。这是一款拥有 14B(140亿)参数的自回归扩散模型,它彻底打破了“大模型必然慢”的固有印象,实现了在单个 NVIDIA H100 GPU 上以 19.5 FPS 的速度生成分钟级长视频。
项目的核心理念非常直感:“一个 14B 的实时模型可以比 13B 模型更便宜、更快,但性能更强大。”

🚀 核心技术突破:不走寻常路
Helios 的诞生并非单纯堆砌算力,而是在算法架构上进行了深度的“减负”与“增效”,主要体现在以下三个维度:
- 告别漂移启发式方法: 长视频生成中最头疼的就是“画面崩坏”或“漂移”。Helios 无需使用自强制(Self-forcing)、误差库或关键帧采样等常用技巧,通过在训练中显式模拟漂移并消除重复运动,从源头保证了长视频的稳定性。
- 无需标准加速技术即可实时: 令人惊讶的是,Helios 在不依赖 KV-cache(键值缓存)、量化或稀疏注意力机制的情况下,依然达到了实时生成的水平。它通过大幅压缩历史噪声上下文和减少采样步数,将计算成本降至与 1.3B 模型相当甚至更低的水平。
- 极致的内存优化: 该模型支持在无需并行或分片框架的情况下进行训练。这意味着在仅 80GB 的 GPU 显存内,可以同时运行多达四个 14B 模型,极大地降低了开发与部署的门槛。
📊 性能表现:速度与质量的巅峰
在端到端吞吐量测试中,Helios 展现出了压倒性的优势:
| 模型规模 | 推理速度 (H100) | 端到端表现 |
|---|---|---|
| Helios (14B) | 19.5 FPS | 显著快于同类规模模型,媲美精简版小模型 |
| 其他 14B 基线 | 较低 | 存在延迟,生成长视频易漂移 |
| 1.3B 精简模型 | 15-20 FPS | 速度相近,但画面细节与理解力远逊于 Helios |
🎨 全能创作:从短片到分钟级巨作
Helios 原生支持 T2V(文本转视频)、I2V(图像转视频) 以及 V2V(视频转视频) 任务。官方展示了多组令人惊叹的案例:
- 超长视频(1449帧): 无论是宇航员在盐漠中前行的电影预告片,还是热带鱼在珊瑚礁中穿梭的自然纪录片,Helios 都能保持极高的逻辑连贯性。
- 互动与创意: 支持赛博朋克风的纽约水下都市、穿着紫色背带裤在孟买漫步的小袋鼠,甚至是维京海盗驾驶现代公交车的荒诞场景。
- 图像转视频: 能将静态的阿联酋航空 A380 飞行动作、金门大桥的落日余晖完美转化为流畅的动态影像。
🔗 项目资源
目前,研究团队已将该项目开源,旨在推动视频生成社区的进一步发展。
- 代码仓库: GitHub
- 模型权重: Hugging Face
- 技术论文: Arxiv 待发布
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)