NVIDIA Cosmos 3：迈向全模态物理人工智能的新基准-closerAI(未授权)

在人工智能领域，理解和模拟物理世界的能力始终是通向通用人工智能（AGI）的核心挑战之一。近日，NVIDIA 正式发布了 Cosmos 3——这是一套专为机器人、自动驾驶、智能基础设施等 Physical AI（物理人工智能）场景打造的开放全模态世界模型。

不同于以往专注于单一模态的模型，Cosmos 3 通过统一的架构，实现了对文本、图像、视频、音频和动作序列的深度理解与生成。

核心设计：统一的全模态架构

Cosmos 3 的核心在于其采用了 混合 Transformer (Mixture-of-Transformers, MoT) 架构。这一架构巧妙地整合了两种计算范式：

推理模式 (Reasoner Mode)： 利用自回归 Transformer 进行因果自注意力处理，赋予模型理解物理世界、进行空间定位、任务规划及因果预测的能力。
生成模式 (Generator Mode)： 利用扩散 Transformer (Diffusion Transformer) 进行去噪处理，从而实现高质量的多模态输出。

通过共享的 Transformer 架构和统一的 3D 多维旋转位置编码 (mRoPE)，Cosmos 3 能够跨模态编码空间和时间结构，使模型在处理物理世界的动态变化时表现出高度的逻辑一致性。

两大运行界面：理解与创造的合一

Cosmos 3 将其功能划分为两个主要的工作界面，以满足开发者在不同技术栈下的部署需求：

界面	输入配置	输出能力	典型应用场景
推理界面 (Reasoner)	文本、视觉信息	文本	物理逻辑推理、任务规划、行动预测、因果评估
生成界面 (Generator)	文本、视觉、音频、动作	视觉、音频、动作	场景模拟、未来状态预测、机器人动作策略学习

Physical AI 的实践价值

Cosmos 3 的定位不仅是研究成果，更是工业级的物理 AI 构建平台。

世界理解与规划： 它能对视频和图像进行细致的事件识别与空间地面标定。例如，在自动驾驶场景中，它能根据车辆前方的视觉信息进行轨迹规划；在机器人操作中，它能通过观察场景推断出下一步动作。
动态世界生成： 它支持高度灵活的条件控制，能够根据提示词或视觉状态生成同步的视觉与音频内容，为机器人仿真和合成数据生成提供了强大的引擎。
闭环训练与评估： 配合其配套的 Cosmos 框架、Curator 数据系统和 Evaluator 评估系统，开发者可以完成从数据处理、模型训练到推理部署的完整闭环，极大降低了构建 embodied agent（具身智能体）的门槛。

开放性与前瞻性

NVIDIA 此次推出的 Cosmos 3 是一个开放的平台，旨在赋能全球的开发者社区。它不仅支持 Python-first 的研究开发（通过 Diffusers 和 Transformers 库），还通过 vLLM-Omni 等工具支持高性能的生产级推理部署。

对于在物理世界中寻求智能化解决方案的机器人学专家、自动驾驶工程师和智能系统架构师而言，Cosmos 3 提供了一个经过验证的、顶尖的开源基准。随着该模型的应用推广，我们将看到更多具备“物理常识”的智能系统在现实工业场景中展现出更强的自主性与适应性。

项目地址：https://github.com/nvidia/cosmos

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

🚨普通永久会员¥599！ ¥599! 仅剩12个,抢完即止!

前20个名额，尊享永久会员特权，包括400+原创工作流、2TB模型库、解锁全站AI工具，稀缺席位，售罄不补！

138 人浏览 ✓ 官方保障 ⚡ 即时生效

天

时

分

秒

原价:¥799 ¥599 省¥200

立即抢购 →

已抢 8剩 12 个名额

永久特别会员拼单活动 ¥799 即可开通!

永久特别会员拼单优惠活动（唯一入口），跟其它小伙伴一起拼单享受优惠！

89 人想拼 🎯 全站解锁 💎 闭源资源

天

时

分

秒

已拼 5剩 15 个名额

NVIDIA Cosmos 3：迈向全模态物理人工智能的新基准

核心设计：统一的全模态架构

两大运行界面：理解与创造的合一

Physical AI 的实践价值

开放性与前瞻性

评论(0)

提示：请文明发言取消回复

🚨普通永久会员¥599！ ¥599! 仅剩12个,抢完即止!

永久特别会员拼单活动 ¥799 即可开通!

作者信息

文章展示

刚看完 GTC 2026，NVIDIA Cosmos 3：面向物理人工智能的全模态世界模型，让我对 Physical AI 彻底上头了