在人工智能领域,理解和模拟物理世界的能力始终是通向通用人工智能(AGI)的核心挑战之一。近日,NVIDIA 正式发布了 Cosmos 3——这是一套专为机器人、自动驾驶、智能基础设施等 Physical AI(物理人工智能)场景打造的开放全模态世界模型。

不同于以往专注于单一模态的模型,Cosmos 3 通过统一的架构,实现了对文本、图像、视频、音频和动作序列的深度理解与生成。

核心设计:统一的全模态架构

Cosmos 3 的核心在于其采用了 混合 Transformer (Mixture-of-Transformers, MoT) 架构。这一架构巧妙地整合了两种计算范式:

  • 推理模式 (Reasoner Mode): 利用自回归 Transformer 进行因果自注意力处理,赋予模型理解物理世界、进行空间定位、任务规划及因果预测的能力。
  • 生成模式 (Generator Mode): 利用扩散 Transformer (Diffusion Transformer) 进行去噪处理,从而实现高质量的多模态输出。

通过共享的 Transformer 架构和统一的 3D 多维旋转位置编码 (mRoPE),Cosmos 3 能够跨模态编码空间和时间结构,使模型在处理物理世界的动态变化时表现出高度的逻辑一致性。

两大运行界面:理解与创造的合一

Cosmos 3 将其功能划分为两个主要的工作界面,以满足开发者在不同技术栈下的部署需求:

界面输入配置输出能力典型应用场景
推理界面 (Reasoner)文本、视觉信息文本物理逻辑推理、任务规划、行动预测、因果评估
生成界面 (Generator)文本、视觉、音频、动作视觉、音频、动作场景模拟、未来状态预测、机器人动作策略学习

Physical AI 的实践价值

Cosmos 3 的定位不仅是研究成果,更是工业级的物理 AI 构建平台。

  1. 世界理解与规划: 它能对视频和图像进行细致的事件识别与空间地面标定。例如,在自动驾驶场景中,它能根据车辆前方的视觉信息进行轨迹规划;在机器人操作中,它能通过观察场景推断出下一步动作。
  2. 动态世界生成: 它支持高度灵活的条件控制,能够根据提示词或视觉状态生成同步的视觉与音频内容,为机器人仿真和合成数据生成提供了强大的引擎。
  3. 闭环训练与评估: 配合其配套的 Cosmos 框架、Curator 数据系统和 Evaluator 评估系统,开发者可以完成从数据处理、模型训练到推理部署的完整闭环,极大降低了构建 embodied agent(具身智能体)的门槛。

开放性与前瞻性

NVIDIA 此次推出的 Cosmos 3 是一个开放的平台,旨在赋能全球的开发者社区。它不仅支持 Python-first 的研究开发(通过 Diffusers 和 Transformers 库),还通过 vLLM-Omni 等工具支持高性能的生产级推理部署。

对于在物理世界中寻求智能化解决方案的机器人学专家、自动驾驶工程师和智能系统架构师而言,Cosmos 3 提供了一个经过验证的、顶尖的开源基准。随着该模型的应用推广,我们将看到更多具备“物理常识”的智能系统在现实工业场景中展现出更强的自主性与适应性。

项目地址:https://github.com/nvidia/cosmos

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。