Kimodo 是由 NVIDIA (nv-tlabs) 开发的一个开源项目,旨在通过**运动扩散模型(Motion Diffusion Model)**生成高质量、可控的 3D 人类和机器人动作。

项目地址:https://research.nvidia.com/labs/sil/projects/kimodo/

以下是该项目的核心总结:

1. 核心功能与定位

Kimodo 是一个运动生成引擎,能够根据多种输入生成逼真且符合物理逻辑的动作序列。它的特点是“高可控性”,不仅仅支持简单的文本描述,还支持精细的运动学约束。

2. 主要特性

  • 多模态控制:
    • 文本提示: 通过自然语言描述动作(如“一个人在跑步”)。
    • 运动学约束: 支持全身姿态关键帧、末端执行器(手脚)位置/旋转、2D 路径和路标点(Waypoints)。
  • 多角色支持:
    • SOMA: NVIDIA 的统一参数化人体模型。
    • Unitree G1: 宇树科技的 humanoid 机器人模型。
    • SMPL-X: 通用的标准人体模型。
  • 海量数据训练: 模型基于约 700 小时的大规模光学动作捕捉数据集训练(包括 BONES-SEED 和 Bones Rigplay 1)。

3. 工具链与生态

项目提供了完整的工具箱,方便开发者从生成到应用:

  • 交互式 Demo: 基于 Web 的界面,用户可以在时间轴上编辑文本和约束,实时预览 3D 运动。
  • 命令行工具 (CLI): 支持快速批量生成运动数据。
  • 下游集成:
    • MuJoCo: 支持导出 G1 机器人的 qpos 格式进行物理仿真。
    • ProtoMotions: 可直接用于训练物理仿真下的数字人类或机器人策略。
    • GMR: 支持将生成的 SMPL-X 动作重定向到其他第三方机器人。

4. 技术规格

  • 硬件要求: 本地推理建议使用具有 17GB 以上显存 的显卡(如 RTX 3090/4090 或 A100),主要压力来自文本嵌入模型。
  • 软件框架: 基于 Python 开发,利用了 LLM2Vec 进行文本编码,Viser 构建可视化界面。
  • 开源协议: 代码采用 Apache-2.0 协议,但模型权重(Hugging Face 下载)可能遵循 NVIDIA 特定的开放模型协议。

5. 总结

Kimodo 是 NVIDIA 在具身智能 (Embodied AI) 领域的重要布局。它解决了“如何为机器人或虚拟人快速生成符合特定约束的复杂动作”这一痛点,为物理仿真训练提供了高质量的动作源。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。