添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

http://aigc.douyoubuy.cn/

【closerAI ComfyUI】数字人最屌开源项目!口型精准,动作自然!MultiTalk音频驱动多人对话视频生成!推荐!

大家好,我是Jimmy。最近数字人又迎来重大突破!一段音频驱动的多人会话视频生成,解决以往音频驱动数字人的呆板的问题。因为是基于万相视频模型。它生成出来的数字人动作神态语言口型都非常完美。如今,MeiGen 团队提出的MultiTalk 框架打破了这一局限,首次实现了音频驱动的多人对话视频生成,让虚拟角色能像真实人类一样 “唇枪舌剑”,开启了多人物视频生成的新篇章。

添加图片注释,不超过 140 字(可选)

让声音驱动多人对话:MultiTalk 音频驱动多人对话视频生成技术革新

项目页:https://meigen-ai.github.io/multi-talk/

仓库:https://github.com/MeiGen-AI/MultiTalk

一、技术背景:现有方法的痛点与 MultiTalk 的破局之道

尽管单人音频驱动动画技术(如 Talking Head)已能生成流畅的面部表情和口型同步,但面对多人对话时,两大难题亟待解决:

  1. 音频与人物的 “错配困境”:多流音频输入时,传统方法无法准确识别哪段声音对应哪个人物,导致 “张冠李戴” 的唇动错误;
  2. 指令跟随能力的缺失:现有模型难以根据文本提示(如 “两人在咖啡馆争论”)生成符合场景逻辑的互动动作。

MultiTalk 的核心创新在于从 “技术架构” 与 “训练策略” 双维度突破:

  1. 标签旋转位置嵌入(L-RoPE):通过为每个音频流添加 “身份标签”,结合旋转位置编码技术,精准绑定音频与人物,彻底解决多流音频的匹配问题;
  2. 多任务训练与参数优化:通过针对性训练策略,保留基础模型对文本指令的理解能力,使生成的视频既能同步音频,又能遵循 “温馨对话”“商务谈判” 等各类场景指令。
添加图片注释,不超过 140 字(可选)

二、MultiTalk 框架:从声音到互动的全流程解析

MultiTalk 的技术框架如同一个 “多人对话导演系统”,其工作流程可拆解为三大核心环节:

1、输入层:多源信息整合

接收多流音频输入(如两人对话的双声道音频)、参考图像(角色外貌特征)和文本提示(场景设定,如 “公园长椅上的朋友谈心”);

2、处理层:音频 - 视觉联动生成

通过音频交叉注意力层解析不同音频流的语义,结合 L-RoPE 技术为每个声音 “标记” 对应人物;

利用多任务训练后的模型,将音频信号转化为唇部动作、头部姿态及肢体互动,并同步匹配文本提示的场景元素(如背景、道具);

3、输出层:高质量互动视频生成

最终输出多人同屏、唇动与音频同步、且符合指令要求的流畅视频,支持 1080P 及以上分辨率。

添加图片注释,不超过 140 字(可选)

comfyUI中的实现与体验

目前暂无comfyUI开源节点,但能在RH版本的实现。同时KJ大佬也提供了量化模型。主要模型和节点下载如下:

1、可在KJ抱脸上下载:下载后放置ComfyUI/models/unet

https://huggingface.co/Kijai/WanVideo_comfy/resolve/main/WanVideo_2_1_Multitalk_14B_fp8_e4m3fn.safetensors

2、下载另一分支的KJ节点ComfyUI-WanVideoWrapper

添加图片注释,不超过 140 字(可选)

切换至multitalk项目页,下载并解压放置节点文件夹中,覆盖即可。

本地运行至少24G显存了,本地设备不行的小伙伴不要折腾了。直接线上comfyUI运行吧。

在KJ版本工作流上优化了一下,加入了音频生成的节点,

添加图片注释,不超过 140 字(可选)

同时还可以加入之前ace step的音乐生成进去。

添加图片注释,不超过 140 字(可选)

以下是主要工作流:

添加图片注释,不超过 140 字(可选)

1、加载区

加载一张图,设置尺寸,控制长度。

添加图片注释,不超过 140 字(可选)

2、lightx2V加速LORA,以下是加载模型的设置:

添加图片注释,不超过 140 字(可选)

3、uni3C 控制

添加图片注释,不超过 140 字(可选)

uni3C之前有介绍过:

【closerAI ComfyUI】超赞!轻松制作电影级别特效!万相controlnet模型Uni3C,精确控制摄像机和人体运动

下载它的控制模型,放置models/controlnet下

然后在工作流中加载一段视频作为参考,

添加图片注释,不超过 140 字(可选)

4、kj新节点(Down)load Wav2Vec Model会自动下载模型

添加图片注释,不超过 140 字(可选)

以下是效果:

我们再试一下:

这次我们先用我们开发的设计大师的软件生产一个好看的小姐姐出来。

通过提示词生成器,参考生成提示词,

添加图片注释,不超过 140 字(可选)

再通过文生图形成高质量的图像,30秒4张高质量的图。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

选这张吧。我们再试下multitalk数字人的工作流吧。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

7分钟生成:

效果完美!

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

超强MultiTalk数字人(加速)体验地址:

https://www.runninghub.cn/ai-detail/1936289159864569857

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点

最后几句:

目前KJ版的仅支持单人!单人已经非常优秀。我们静侯大佬就行了。

以上就是multitalk的介绍与体验,以及是closerAI团队制作的stable diffusion comfyUI closerAI closerAI KJ加速版MultiTalk数字人介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

http://aigc.douyoubuy.cn/

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。