在人工智能领域,理解和模拟物理世界的能力始终是通向通用人工智能(AGI)的核心挑战之一。近日,NVIDIA 正式发布了 Cosmos 3——这是一套专为机器人、自动驾驶、智能基础设施等 Physical AI(物理人工智能)场景打造的开放全模态世界模型。
不同于以往专注于单一模态的模型,Cosmos 3 通过统一的架构,实现了对文本、图像、视频、音频和动作序列的深度理解与生成。
核心设计:统一的全模态架构
Cosmos 3 的核心在于其采用了 混合 Transformer (Mixture-of-Transformers, MoT) 架构。这一架构巧妙地整合了两种计算范式:
- 推理模式 (Reasoner Mode): 利用自回归 Transformer 进行因果自注意力处理,赋予模型理解物理世界、进行空间定位、任务规划及因果预测的能力。
- 生成模式 (Generator Mode): 利用扩散 Transformer (Diffusion Transformer) 进行去噪处理,从而实现高质量的多模态输出。
通过共享的 Transformer 架构和统一的 3D 多维旋转位置编码 (mRoPE),Cosmos 3 能够跨模态编码空间和时间结构,使模型在处理物理世界的动态变化时表现出高度的逻辑一致性。
两大运行界面:理解与创造的合一
Cosmos 3 将其功能划分为两个主要的工作界面,以满足开发者在不同技术栈下的部署需求:
| 界面 | 输入配置 | 输出能力 | 典型应用场景 |
|---|---|---|---|
| 推理界面 (Reasoner) | 文本、视觉信息 | 文本 | 物理逻辑推理、任务规划、行动预测、因果评估 |
| 生成界面 (Generator) | 文本、视觉、音频、动作 | 视觉、音频、动作 | 场景模拟、未来状态预测、机器人动作策略学习 |
Physical AI 的实践价值
Cosmos 3 的定位不仅是研究成果,更是工业级的物理 AI 构建平台。
- 世界理解与规划: 它能对视频和图像进行细致的事件识别与空间地面标定。例如,在自动驾驶场景中,它能根据车辆前方的视觉信息进行轨迹规划;在机器人操作中,它能通过观察场景推断出下一步动作。
- 动态世界生成: 它支持高度灵活的条件控制,能够根据提示词或视觉状态生成同步的视觉与音频内容,为机器人仿真和合成数据生成提供了强大的引擎。
- 闭环训练与评估: 配合其配套的 Cosmos 框架、Curator 数据系统和 Evaluator 评估系统,开发者可以完成从数据处理、模型训练到推理部署的完整闭环,极大降低了构建 embodied agent(具身智能体)的门槛。
开放性与前瞻性
NVIDIA 此次推出的 Cosmos 3 是一个开放的平台,旨在赋能全球的开发者社区。它不仅支持 Python-first 的研究开发(通过 Diffusers 和 Transformers 库),还通过 vLLM-Omni 等工具支持高性能的生产级推理部署。
对于在物理世界中寻求智能化解决方案的机器人学专家、自动驾驶工程师和智能系统架构师而言,Cosmos 3 提供了一个经过验证的、顶尖的开源基准。随着该模型的应用推广,我们将看到更多具备“物理常识”的智能系统在现实工业场景中展现出更强的自主性与适应性。
项目地址:https://github.com/nvidia/cosmos
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

评论(0)