NVIDIA Cosmos 3：迈向物理人工智能的全新全模态世界模型-closerAI(未授权)

NVIDIA 近日发布了 Cosmos 3，这是一个专为物理人工智能（Physical AI）设计的基础模型平台。该模型旨在通过赋予机器理解、模拟并与物理世界交互的能力，加速机器人技术、自动驾驶以及智能空间等领域的发展。

什么是 Cosmos 3？

Cosmos 3 是一套全模态世界模型。与传统的单模态模型不同，它能够处理并生成文本、图像、视频、音频以及机器人动作轨迹的组合。这种能力使其成为多模态理解、世界模拟、未来预测以及具身智能（Embodied AI）策略学习的核心构建模块。

核心架构：混合 Transformer (MoT)

Cosmos 3 采用了创新的混合 Transformer (MoT) 架构，由两个互补的模块组成：

自回归 Transformer：负责文本等离散词元的生成。
扩散 Transformer：负责图像、视频、音频和动作等连续多模态数据的生成。

这种统一的架构在单一框架内处理异构模态，同时保留了最适合各模态的生成机制。

主要模型变体

Cosmos 3 系列提供了多种针对不同任务优化的版本（参数量从 16B 到 64B 不等）：

模型名称	主要用途
Cosmos3-Super-Text2Image	根据文本输入生成高保真图像。
Cosmos3-Super-Image2Video	根据单张图片和文本指令，生成时间连贯的视频序列。
Cosmos3-Nano-Policy-DROID	专为机器人控制设计，根据语言指令生成动作轨迹。
Cosmos3-Nano / Super	通用多模态理解、世界模拟与未来预测。

技术亮点与应用

全模态交互：支持文本、图像、视频、音频和动作轨迹的输入与输出，满足复杂物理场景的模拟需求。
高性能部署：针对 NVIDIA GPU 加速系统进行优化，支持 PyTorch、vLLM-Omni 和 Hugging Face Diffusers 等运行时引擎。
广泛的兼容性：支持多种机器人体现形式，包括 Franka Panda 机械臂、Agibot、自动驾驶车辆等。
伦理与安全：在训练过程中采用了多层次的自动化与人工过滤机制，旨在降低有害内容的风险。同时，NVIDIA 强调开发者需在部署前进行系统的安全分析与验证。

部署与使用建议

NVIDIA Cosmos 3 已在 Hugging Face 开源（基于 OpenMDW 1.1 许可证）。

硬件要求：建议使用 NVIDIA Ampere、Hopper 或 Blackwell 架构的 GPU。
推理提示：为了获得最佳质量，官方建议使用提示词上采样（Prompt Upsampling）技术，将原始文本转化为特定的 JSON 结构后再进行生成。
局限性说明：作为物理人工智能模型，Cosmos 3 目前在复杂 3D 几何、长期时间一致性以及物理接触动力学方面仍存在一定的近似误差。在安全关键型领域应用时，必须辅以外部约束和系统级安全防护。

对于开发者而言，Cosmos 3 不仅仅是一个生成模型，它是 NVIDIA 在构建具身智能和物理世界数字孪生道路上的关键一步。您可以访问 Hugging Face 获取更多模型权重、代码片段及技术文档。

项目地址：https://huggingface.co/nvidia/Cosmos3-Super-Text2Image

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

🚨7月优惠活动：普通永久会员 ¥599! 仅剩5个,抢完即止!

前20个名额，尊享永久会员特权，包括400+原创工作流、2TB模型库、解锁全站AI工具，稀缺席位，售罄不补！

138 人浏览 ✓ 官方保障 ⚡ 即时生效

天

时

分

秒

原价:¥799 ¥599 省¥200

立即抢购 →

已抢 15剩 5 个名额

7月限时拼单永久特别会员拼单活动 ¥799 即可开通!

永久特别会员拼单优惠活动（唯一入口），跟其它小伙伴一起拼单享受优惠！

109 人想拼 🎯 全站解锁 💎 闭源资源

天

时

分

秒

已拼 4剩 6 个名额

NVIDIA Cosmos 3：迈向物理人工智能的全新全模态世界模型

什么是 Cosmos 3？

核心架构：混合 Transformer (MoT)

主要模型变体

技术亮点与应用

部署与使用建议

评论(0)

提示：请文明发言取消回复

🚨7月优惠活动：普通永久会员 ¥599! 仅剩5个,抢完即止!

7月限时拼单永久特别会员拼单活动 ¥799 即可开通!

作者信息

文章展示

krea2-identity-edit V1.1

开源视频模型：LingBot-Video

krea2 绕过安全过滤节点

突发！神秘AI大模型Krea2 Turbo社区版本悄悄开源，极致画质+闪电出图！速度与画质的终极形态！

SCAIL-2 GGUF Q4_K_M模型

SCAIL-2

NVIDIA Cosmos 3：迈向物理人工智能的全新全模态世界模型

什么是 Cosmos 3？

核心架构：混合 Transformer (MoT)

主要模型变体

技术亮点与应用

部署与使用建议

评论(0)

提示：请文明发言 取消回复

相关文章

🚨7月优惠活动：普通永久会员 ¥599! 仅剩5个,抢完即止!

7月限时拼单永久特别会员拼单活动 ¥799 即可开通!

作者信息

文章展示

提示：请文明发言取消回复