在 AIGC 的演进历程中,Sora、Genie 等视频大模型的出现让我们惊叹于像素生成的魅力。然而,视频模型的痛点也显而易见:播完即消失、无法编辑、缺乏真实的 3D 一致性。

2026 年 4 月 16 日,腾讯混元团队正式开源了 HY-World 2.0。这不仅是一个模型,更是一套将文本、图像、视频直接转化为可交互、可持久化 3D 资产的生产力工具。

核心范式:构建一个“可玩的游戏”

HY-World 2.0 与传统视频世界模型最本质的区别在于:它生成的不是像素序列,而是真实的 3D 资产(Meshes / 3DGS)

维度视频世界模型 (如 Genie 3)3D 世界模型 (HY-World 2.0)
输出产物像素视频(不可编辑)3D 资产(可自由编辑、导出)
持久性播放结束即消失永久保存,随时重访
交互性仅限视觉观看支持物理碰撞、第一/三人称导航
推理成本随交互时长持续消耗显存一次生成,消费级显卡即可实时渲染

技术架构:四阶段进阶之路

HY-World 2.0 通过一套系统化的流水线,实现了从“一句话”到“一个世界”的跨越:

  1. HY-Pano 2.0 (全景生成): 将文本或单张图像扩展为 360° 的沉浸式全景图。
  2. WorldNav (轨迹规划): 根据用户意图或场景逻辑,智能规划相机移动轨迹。
  3. WorldStereo 2.0 (世界扩展): 负责空间的横向生长,确保大场景的连贯性。
  4. WorldMirror 2.0 (世界组合): 核心重建引擎。这是一个 1.2B 参数的前馈模型,能在单次推理中预测深度、法线及 3D 高斯分布(3DGS)属性。

为什么开发者和创作者必须关注它?

1. 真正的 3D 一致性

视频模型常出现的“物体闪烁”或“空间扭曲”在 HY-World 2.0 中得到了原生解决。由于其底层逻辑是构建 3D 几何,因此无论相机如何旋转,场景始终保持物理意义上的严丝合缝。

2. 完美的引擎兼容性

生成的 3D 资产可以直接导入 Blender、Unity、Unreal Engine 甚至 NVIDIA Isaac Sim。这对于 AI 短剧创作、游戏关卡原型设计以及机器人仿真训练具有革命性的意义。

3. 消费级显卡的福音

虽然模型能力触达 SOTA 水平,但核心重建模型 WorldMirror 2.0 的参数量控制在 1.2B 左右。这意味着在 8GB 显存 的主流显卡上,通过量化技术或优化后的 ComfyUI 节点,普通开发者也能跑通全流程。


部署与实操建议

项目目前已在 GitHub 完整开源了技术报告及 WorldMirror 2.0 的核心代码与权重。

  • 硬件建议: 推荐使用 CUDA 12.4,支持 FlashAttention-3。在 NVIDIA Ada 架构卡(如 40 系列)上表现极佳。
  • API 友好: 提供了类似 Diffusers 的 Python API,几行代码即可实现从视频/图像序列到 3D 空间的重建。

pythonCopy

from hyworld2.worldrecon.pipeline import WorldMirrorPipeline

pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')
# 输入图片路径,直接生成 3DGS 结果
result = pipeline('path/to/images')

结语

HY-World 2.0 的开源标志着 AIGC 正从“内容模拟”走向“空间构建”。对于追求高质量、强交互内容的创作者来说,这不仅是技术的升级,更是创作自由度的释放。

未来的数字世界,或许只需要你的一个念头,就能变成脚下真实的土地。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。