添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

【closerAI ComfyUI】革命性AI来了!单张照片生成超自然说话视频,表情动作比真人还自然!阿里的FantasyTalking很强!快来看看!

大家好,我是Jimmy。AI数字人开源界有很多优秀的项目,但今天要介绍的,是来自阿里团队新推出的数字人项目:FantasyTalking。它是基于通义万相视频生成来基底实现的视听一体的解决方案。

FantasyTalking:基于连贯运动合成的逼真说话肖像生成技术

传统语音驱动的说话人头像生成技术长期受限于三大瓶颈:

  • 表情僵硬:难以捕捉微妙的面部表情变化(如惊讶、微笑时的肌肉联动)
  • 动作脱节:身体姿态与语音节奏不同步,背景元素缺乏动态一致性
  • 身份失真:长时间生成视频易出现人物面部特征偏移(如眼镜变形、发型错位)

为解决这些问题,FantasyTalking 提出了一种全新的双阶段音视频对齐框架,通过全局运动同步与局部细节优化,实现了高真实感的动态说话肖像生成。FantasyTalking可以生成高度逼真的嘴唇同步,确保角色的嘴部动作与音频匹配。支持各种风格的头像,无论是现实还是卡通,都可以生成高质量的对话视频。

核心技术创新

1. 双阶段音视频对齐策略

阶段一:全局运动同步(Clip-level Alignment)第一阶段,采用剪辑级训练方案,通过在整个场景(包括参考肖像、上下文对象和背景)上对齐音频驱动的动态来建立连贯的全局运动。

  • 多对象协同驱动:通过音频信号同时驱动人物面部、身体姿态、手势及背景元素的连贯运动
  • 时空一致性建模:采用3D卷积+Transformer混合架构,捕捉长距离时序依赖关系
  • 动态背景融合:创新性地实现背景元素(如摆件、灯光)与人物动作的物理一致性

阶段二:唇部精细化对齐(Frame-level Refinement)第二阶段,使用嘴唇跟踪遮罩在帧级细化嘴唇运动,确保与音频信号的精确同步。

  • 唇形追踪掩码:引入语义分割网络生成高精度唇部mask
  • 跨模态注意力机制:联合优化唇部运动与声道频谱特征
  • 时序平滑约束:通过运动扩散模型消除帧间抖动

2. 身份保持与运动架构:为了在不影响动作灵活性的情况下保持身份,使用面部聚焦交叉注意模块来取代常用的参考网络,该模块可有效地保持整个视频中面部的一致性。还集成了一个运动强度调制模块,可明确控制表情和身体运动强度,从而实现对人像运动的可控操纵,而不仅仅是嘴唇运动。

  • 面部聚焦交叉注意力:在Transformer层中引入空间门控机制,抑制非面部区域的运动干扰
  • 运动强度调制模块:独立控制表情幅度(如嘴角上扬角度)和肢体动作频率
  • 参考编码器增强:使用ArcFace损失函数保持跨帧身份特征一致性

3. 技术突破

  • 动态分辨率适配:支持4K分辨率下实时推理(实验显示FPS≥25)
  • 轻量化设计:通过知识蒸馏将模型参数量压缩至350M
  • 多语言支持:兼容中文/英文/日语等多语种语音输入

项目相关链接:

仓库:https://github.com/Fantasy-AMAP/fantasy-talking

论文地址:https://fantasy-amap.github.io/fantasy-talking/

fantasy-talking在comfyUI中的实现

目前KJ已实现了支持,不过建议24G以上显存的玩以及云端跑。由于项目它是基于通义万相视频生成模型的,大家只需要更新KJ节点:https://github.com/kijai/ComfyUI-WanVideoWrapper

KJ版模型https://hf-mirror.com/Kijai/WanVideo_comfy/blob/main/fantasytalking_fp16.safetensors

如下图框住的模型。下载后放置:comfyUI/models/diffusion_models下

添加图片注释,不超过 140 字(可选)

同时还需要下载一个模型:facebook的:wav2vec2-base-960h

https://hf-mirror.com/facebook/wav2vec2-base-960h

添加图片注释,不超过 140 字(可选)

全部下载后放置在:comfyui\models\transformers\facebook下。没有就新建对应文件夹放置。

加载工作流运行。

添加图片注释,不超过 140 字(可选)

控制尺寸与长度。

添加图片注释,不超过 140 字(可选)

加载一段音频,音频我是用FM TTS。5s音频。

添加图片注释,不超过 140 字(可选)

1秒24帧,那5秒120帧。天呐,我8G的显存肯定跑不了了。云端跑下吧。

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

runninghub.cn FantasyTalking数字人工作流体验地址:

runninghub.cn/ai-detail/1917093841885925378

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

FantasyTalking通过创新的双阶段对齐框架和身份保持架构,在动态肖像生成领域实现了显著突破。尽管项目仍处于早期阶段,但其技术路线清晰,应用潜力巨大,值得产学研各界持续关注!

以上是FantasyTalking的项目介绍以及在comfyUI中的实现介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。