更多AI前沿科技资讯,请关注我们:closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

大家好,我是Jimmy。今天在 NVIDIA GTC 2026 现场看完 Jensen黄仁勋的 keynote,我到现在还挺兴奋的。就在 2026 年 6 月 1 日的舞台上,他正式把 NVIDIA Cosmos 3 端了出来。那一刻我真觉得,Physical AI 这扇大门被狠狠推开了一条大缝。

Cosmos 3 不是参数堆得更高、营销喊得更响的那种常规升级。它直接把语言、图像、视频、音频、动作全塞进一个统一的 omnimodal world model 里,用 Mixture-of-Transformers (MoT) 架构把理解、生成、模拟、行动整个链条打通了。看完之后,我的感觉就四个字:终于来了,而且来得比我想象中更扎实。

我们看下它的能力:

一、视觉语言推理:通过物质世界进行推理。

Cosmos 3 将语言建立在图像和视频之上,通过解读空间关系、时间线索、物体状态和动作,将二者视为更深层次物理推理的共享背景。

提示词:你是一个自动驾驶车辆规划系统。视频显示的是车辆摄像头拍摄的画面,你需要识别环境中的关键物体,并推断你的下一步行动和行驶轨迹。

根据视频回复:我正在减速并保持在车道内,接近有交通信号灯和其他车辆的十字路口。前方有交通信号灯和车辆,因此我必须减速以确保安全并遵守交通规则。车道标线指示直线行驶,我正保持在车道内。

二、图像生成:创造具有细节的场景。

Cosmos 3 将语言描述转化为逼真的图像,保留物体细节、空间布局和物理线索,以便进行后续生成。

以下文生图的案例:

提示词:一张逼真的工业工厂照片,上方是明亮的LED面板,地面是略带油光的混凝士。一辆低矮的矩形自动导引车沿着嵌入地面的黑色磁条移动;车上堆放着用绑带固定的灰色手提箱。黄色安全线和警示V形线标示着通道边缘,两侧是数控机床和工具柜。镜头位于齐腰高度,采用四分之三后视视角,可以看到导引车前方的导向传感器、车轮上轻微的运动模糊、地面上逼真的反射和磨损痕迹,以及远处冷却液雾气形成的淡淡薄雾。

提示:逼真的纺织车间:一台架空龙门系统移动着激光切割头,在铺有哑光黑色织物的大型真空吸附平台上进行切割。激光勾勒出清晰的图案线条,留下干净利落的边缘,并在切割处留下一个细长的发光点。一缕淡淡的烟雾升腾而起,朝向抽油烟机,琥珀色的安全照明与冷色调的环境光交相辉映。俯视镜头展现了平台上的网格标记、龙门架上的电缆链条以及沿墙整齐堆放的布卷。

三、视听生成:用视觉和听觉创造世界。

Cosmos 3 可以根据文本、图像或片段创建具有物理感知能力的视频,并且可以将运动与跟随可见事件、源运动和场景上下文的音频相结合。

以下是文本和图像进行视频生成的案例

提示词:一场高速赛车比赛,赛车需要通过多个蜿蜒的弯道。

提示词:机械臂切开番茄,然后缩回。

四、机器人策略:将感知转化为行动。

Cosmos 3 采用相同的全模态主干,遵循指令并将视觉环境转化为有目的的规划和操作。

任务:将螺丝刀和手套放入紫色容器中。

五、前向动力学:模拟未来世界。

Cosmos 3 对观察和控制条件进行调整,以推出未来的视频,帮助代理预览结果,用于规划、评估和数据生成。

效果:

六、逆动力学:推断变化背后的原因。

Cosmos 3 读取观察到的状态,并恢复解释场景如何变化的轨迹或控制,将视频证据转化为行动。

从上面的案例可以归纳出Cosmos 3的最大的特点是真正做到了多模态统一:

  1. 深度物理世界理解:扔一段视频或图像给它,它能像人一样读懂空间关系、物体状态、时间线索、因果逻辑,还能做 Chain-of-Thought 式的复杂推理。比如自动驾驶场景里,它能识别关键物体、规划行驶轨迹;机器人任务中,它能分析当前环境并决定下一步动作。这不是表面理解,而是真正 grounded 在物理世界里的推理。
  2. 强大生成能力:支持 text-to-image、image-to-video、视频+同步音频生成,还能生成动作序列。生成的工业场景、机器人操作、工厂流水线看起来真实度很高,物理细节(光影、材质、运动轨迹)处理得特别自然。
  3. 动作建模双向能力:支持 Forward Dynamics(看当前状态和控制预测未来画面)和 Inverse Dynamics(看结果视频反推背后的动作轨迹)。这对机器人训练太关键了——既能模拟“如果我这么做,接下来会发生什么”,也能从观察中学习“要达到这个结果,该怎么动”。
  4. Reasoning + Generation 结合:它能先思考规划(比如分析任务、输出动作轨迹),然后直接生成对应的物理交互视频。这让从感知到行动的闭环变得更高效。

模型家族也很实用:Cosmos3-Nano(16B) 适合边缘部署和快速实验,Cosmos3-Super(64B) 则是顶级性能,还有针对 text-to-image、image-to-video、机器人 policy 的专项版本。目前在开放模型里,它在 Robotics、Smart Space、Driving、图像/视频生成等多个 benchmark 上都拿到了 Top1,实打实的领先。文生图、图生视频的权重已在抱脸上发布。

它的价值在哪里?

老实说,这几年大家卷大模型,卷来卷去大多还在屏幕里的数字世界里打转。Cosmos 3 直接把枪口对准了真实物理世界。它不只是生成好看的视频,而是尝试去理解物理规律、因果关系和动作意图。这才是通往真正具身智能(Embodied AI)、机器人规模化落地、L4/L5 自动驾驶的关键基础设施

对开发者来说,GitHub 上直接开源,门槛不算高。搭配 NVIDIA 的 Isaac、GR00T 和 Physical AI Data Factory Blueprint,意味着未来合成数据生成、世界模拟、机器人训练的成本和效率都会大幅提升——以前动辄需要海量真实数据,现在可以用模型高效补齐长尾场景。

对未来的影响

我个人觉得,今天 Cosmos 3 的发布可能是 2026 年 Physical AI 的一个重要转折点。它不只是一个孤立的模型,而是一个完整的开放平台——模型、数据集、工具链全都有。

接下来,谁能更快地把 Cosmos 3 和真实硬件、真实场景结合起来,谁就有望在机器人、自动驾驶、智能空间这些领域抢到先机。想象一下:机器人公司用它生成海量训练数据,自动驾驶团队用它做更安全的仿真验证,工业领域用它规划复杂操作……Physical AI 从概念走向实用的速度可能会远超我们预期。

总之,今天 GTC 2026 的 keynote 看完,我对 Cosmos 3 的期待直接拉满。

它让我真正看到 AI 从“会聊天、会画画”走向“会理解世界、会行动”的下一步。

2026 年,如果 Physical AI 真要爆发,我一点都不意外——而 Cosmos 3 很可能就是其中最重要的一根引线。

这就是我今天看完后的真实感受。值得继续关注。

项目地址:https://research.nvidia.com/labs/cosmos-lab/cosmos3/

模型地址:

https://huggingface.co/nvidia/Cosmos3-Super-Image2Video
https://huggingface.co/nvidia/Cosmos3-Super-Image2Video

仓库:https://github.com/nvidia/cosmos


本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

LTX-23+OmniNFT 图生视频应用体验地址

https://www.runninghub.cn/ai-detail/2057046158261968897

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点

runningHug上的无限画布,也可以使用GPT image进行生成:

它集成了多个优秀的闭源模型:

在图像与视频生成中,一个节点就能直接调用使用并生成。十分方便,且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得,速度很快。是一个不错的选择。通过注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151 注册后打开无限画面


最后几句:

如果对你有帮助,请一键三连支持下我,感谢


CloserAI AI短剧工作台(本地化解决方案):
https://aigc.douyoubuy.cn/ai-agent/
closerAI FlowStudio本地AIGC无限画布创作工具:
https://aigc.douyoubuy.cn/closerai-flowstudio/
closerAI AI绘画大师万象视界:
https://aigc.douyoubuy.cn/closerai-vision/
CLOSERAI POD电商印花批量生产工作站:
https://aigc.douyoubuy.cn/?page_id=420541
印花提取:
https://aigc.douyoubuy.cn/yinhua/

以上是就是本期的分享,当然,更多工作流、资讯、插件、工具也可以在我们closerAI会员站上获取(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。