【closerAI ComfyUI】革命性AI来了！单张照片生成超自然说话视频，表情动作比真人还自然！阿里的FantasyTalking很强！快来看看！-closerAI(未授权)

更多AI前沿科技资讯，请关注我们：

【closerAI ComfyUI】革命性AI来了！单张照片生成超自然说话视频，表情动作比真人还自然！阿里的FantasyTalking很强！快来看看！

大家好，我是Jimmy。AI数字人开源界有很多优秀的项目，但今天要介绍的，是来自阿里团队新推出的数字人项目：FantasyTalking。它是基于通义万相视频生成来基底实现的视听一体的解决方案。

FantasyTalking：基于连贯运动合成的逼真说话肖像生成技术

传统语音驱动的说话人头像生成技术长期受限于三大瓶颈：

表情僵硬：难以捕捉微妙的面部表情变化（如惊讶、微笑时的肌肉联动）
动作脱节：身体姿态与语音节奏不同步，背景元素缺乏动态一致性
身份失真：长时间生成视频易出现人物面部特征偏移（如眼镜变形、发型错位）

为解决这些问题，FantasyTalking 提出了一种全新的双阶段音视频对齐框架，通过全局运动同步与局部细节优化，实现了高真实感的动态说话肖像生成。FantasyTalking可以生成高度逼真的嘴唇同步，确保角色的嘴部动作与音频匹配。支持各种风格的头像，无论是现实还是卡通，都可以生成高质量的对话视频。

核心技术创新

1. 双阶段音视频对齐策略

阶段一：全局运动同步（Clip-level Alignment）第一阶段，采用剪辑级训练方案，通过在整个场景（包括参考肖像、上下文对象和背景）上对齐音频驱动的动态来建立连贯的全局运动。

多对象协同驱动：通过音频信号同时驱动人物面部、身体姿态、手势及背景元素的连贯运动
时空一致性建模：采用3D卷积+Transformer混合架构，捕捉长距离时序依赖关系
动态背景融合：创新性地实现背景元素（如摆件、灯光）与人物动作的物理一致性

阶段二：唇部精细化对齐（Frame-level Refinement）第二阶段，使用嘴唇跟踪遮罩在帧级细化嘴唇运动，确保与音频信号的精确同步。

唇形追踪掩码：引入语义分割网络生成高精度唇部mask
跨模态注意力机制：联合优化唇部运动与声道频谱特征
时序平滑约束：通过运动扩散模型消除帧间抖动

2. 身份保持与运动架构：为了在不影响动作灵活性的情况下保持身份，使用面部聚焦交叉注意模块来取代常用的参考网络，该模块可有效地保持整个视频中面部的一致性。还集成了一个运动强度调制模块，可明确控制表情和身体运动强度，从而实现对人像运动的可控操纵，而不仅仅是嘴唇运动。

面部聚焦交叉注意力：在Transformer层中引入空间门控机制，抑制非面部区域的运动干扰
运动强度调制模块：独立控制表情幅度（如嘴角上扬角度）和肢体动作频率
参考编码器增强：使用ArcFace损失函数保持跨帧身份特征一致性

3. 技术突破

动态分辨率适配：支持4K分辨率下实时推理（实验显示FPS≥25）
轻量化设计：通过知识蒸馏将模型参数量压缩至350M
多语言支持：兼容中文/英文/日语等多语种语音输入

项目相关链接：

仓库：https://github.com/Fantasy-AMAP/fantasy-talking

论文地址：https://fantasy-amap.github.io/fantasy-talking/

fantasy-talking在comfyUI中的实现

目前KJ已实现了支持，不过建议24G以上显存的玩以及云端跑。由于项目它是基于通义万相视频生成模型的，大家只需要更新KJ节点：https://github.com/kijai/ComfyUI-WanVideoWrapper

KJ版模型https://hf-mirror.com/Kijai/WanVideo_comfy/blob/main/fantasytalking_fp16.safetensors

如下图框住的模型。下载后放置:comfyUI/models/diffusion_models下

同时还需要下载一个模型：facebook的：wav2vec2-base-960h

https://hf-mirror.com/facebook/wav2vec2-base-960h

全部下载后放置在：comfyui\models\transformers\facebook下。没有就新建对应文件夹放置。

加载工作流运行。

控制尺寸与长度。

加载一段音频，音频我是用FM TTS。5s音频。

1秒24帧，那5秒120帧。天呐，我8G的显存肯定跑不了了。云端跑下吧。

本地算力不够怎么办？

如果本地设备算力不好的小伙伴，推荐使用线上comfyUI来运行体验：runninghub.cn

runninghub.cn FantasyTalking数字人工作流体验地址：

runninghub.cn/ai-detail/1917093841885925378

注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点，每日登录送100点

最后几句：

FantasyTalking通过创新的双阶段对齐框架和身份保持架构，在动态肖像生成领域实现了显著突破。尽管项目仍处于早期阶段，但其技术路线清晰，应用潜力巨大，值得产学研各界持续关注！

以上是FantasyTalking的项目介绍以及在comfyUI中的实现介绍，大家可以根据工作流思路进行尝试搭建。

当然，也可以在我们closerAI会员站上获取对应的工作流(查看原文)。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：JimmyMo

更多AI前沿科技资讯，请关注我们：

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

隐藏内容

本内容需权限查看

普通用户: 99.9金币
VIP会员: 免费
永久会员: 免费

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

【closerAI ComfyUI】革命性AI来了！单张照片生成超自然说话视频，表情动作比真人还自然！阿里的FantasyTalking很强！快来看看！

FantasyTalking：基于连贯运动合成的逼真说话肖像生成技术

传统语音驱动的说话人头像生成技术长期受限于三大瓶颈：

评论(0)

提示：请文明发言取消回复

🚨【新年优惠】普通永久会员¥599！仅剩16席，抢完即止！

作者信息

文章展示

Z-Image：通义团队推出的高效单流 Diffusion Transformer 图像生成基座模型

Qwen3-TTS 部署与使用指南

🚀 专题：解锁ComfyUI的“谷歌大脑” —— NanoBananaPro 免费畅玩三部曲

【closerAI ComfyUI】黑森林官方出手，FLUX.2 klein模型的提示词写作指南！自然语言描述，所写所得，方法用对画质提升

主打快准稳？！黑森林开源FLUX.2 [klein] 四个模型！减负后的FLUX2又行了：兼备文生与编辑能力！

AI绘图圈变天？GLM-Image 重磅开源！文字渲染吊打同行，混合架构到底有多强？

【closerAI ComfyUI】革命性AI来了！单张照片生成超自然说话视频，表情动作比真人还自然！阿里的FantasyTalking很强！快来看看！

FantasyTalking：基于连贯运动合成的逼真说话肖像生成技术

传统语音驱动的说话人头像生成技术长期受限于三大瓶颈：

评论(0)

提示：请文明发言 取消回复

相关文章

🚨【新年优惠】普通永久会员¥599！仅剩16席，抢完即止！

作者信息

文章展示

提示：请文明发言取消回复