添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

http://aigc.douyoubuy.cn/

【closerAI ComfyUI】太炸裂了!FLOAT数字人+VACE视频生成全身数字人,适用于口播主持讲解等,可玩性高!冲!

大家好,我是Jimmy。在我们的号也有介绍过Ai数字人的玩法,结合indexTTS+Heygem打造高效的数字人。

【closerAI ComfyUI】强强联合!王炸组合!indexTTS+HeyGem打造个性化数字人!简单易用!收藏学习!

今天这个数字人项目,同样值得关注与学习。

添加图片注释,不超过 140 字(可选)

FLOAT:基于流动匹配的音频驱动谈吐肖像视频生成技术

一、项目背景

随着扩散生成模型的迅速发展,肖像图像动画技术取得了显著成果。然而,传统方法由于迭代采样的特性,在时间一致的生成和快速采样方面存在挑战。为解决这些问题,DeepBrain AI Inc.和KAIST的研究人员提出了FLOAT方法。

项目链接:https://deepbrainai-research.github.io/float/

添加图片注释,不超过 140 字(可选)

二、FLOAT方法概述

(一)核心思路

FLOAT是一种基于流动匹配生成模型的音频驱动谈吐肖像视频生成方法。它将生成建模从像素基础的潜在空间转移到学习到的运动潜在空间,从而实现高效的时间一致运动设计。

添加图片注释,不超过 140 字(可选)

(二)关键技术

  1. 运动潜在自编码器:首先将给定的肖像图像编码为身份 - 运动潜在表示,为后续生成奠定基础。
  2. 流动匹配机制:通过最优传输轨迹生成音频条件下的谈吐肖像运动潜在。这种机制使得生成的视频在时间维度上更加连贯,克服了传统迭代采样方法可能导致的时间不一致问题。
  3. 情感增强:引入基于Transformer的矢量场预测器,并配备简单而有效的逐帧条件机制。同时,结合语音驱动的情感标签(如😀),提供自然的情感感知谈吐肖像运动生成方式。这使得生成的肖像视频不仅动作自然,还能根据语音传达相应的情感,增强了视频的真实感和表现力。

三、实验结果

(一)性能优势

  1. 视觉质量与运动保真度
  • 在广泛的实验中,FLOAT在视觉质量和运动保真度方面均超越了现有的最先进方法。例如,与非扩散方法SadTalker和EDTalk以及扩散方法AniTalker、Hallo和EchoMimic相比,FLOAT在生成视频的视觉效果和运动准确性上表现更优。
  1. 效率提升
  • FLOAT在生成速度上有显著提升。它能够以较少的函数评估次数(NFEs)生成合理的结果,大约仅需10次NFEs即可生成具有一定质量的视频,大大提高了生成效率。
  1. 情感处理能力
  • 由于FLOAT在训练过程中使用了语音驱动的情感标签,它可以在推理阶段重新定向谈吐肖像的情感。通过简单地操纵预测的语音驱动情感标签(可以使用独热情感标签),并进一步通过无分类器矢量场进行细化,用户能够在驱动语音传达模糊或混合情感时,对情感进行精细化调整。
添加图片注释,不超过 140 字(可选)

comfyUI FLOAT的体验

仓库链接:https://github.com/yuvraj108c/ComfyUI-FLOAT/tree/master

添加图片注释,不超过 140 字(可选)

安装简单,下载解压节点。

添加图片注释,不超过 140 字(可选)

它上面有个示例工作流。加载执行,会自动下载模型。等待即可。

我们先看示例工作流运行的效果:

添加图片注释,不超过 140 字(可选)

加载一张人物图,然后最终它会输出头部的讲话的口播视频。

效果如下:请大家看看我生成的废话数字人,哈哈。

当然,我们不止于此,结合之前学过的VACE视频编辑模型,通过外补扩图的形成重新生成它全身的模样。于是我们打造了closerAI float+VACE全身数字人工作流。适用于float形成头部视频后扩展成全身。

以下是closerAI float+VACE全身数字人工作流

添加图片注释,不超过 140 字(可选)

主要三个部分了,第一个部分是float,这个简单。

第二部分是扩展画面:

添加图片注释,不超过 140 字(可选)

第三部分是VACE的视频生成(KJ版的):

添加图片注释,不超过 140 字(可选)

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

runninghub.cn 超强的float全身数字人体验地址:

https://www.runninghub.cn/ai-detail/1926115900951334913

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

FLOAT及其衍生项目(如ComfyUI-FLOAT)代表了音频驱动数字人技术的最新进展,通过流动匹配和情感增强显著提升了生成质量与效率。未来,随着多模态融合和轻量化技术的发展,数字人将在虚拟现实、娱乐、教育等领域发挥更大价值。如需进一步研究,建议从流动匹配的理论基础和开源实现入手,结合实际场景优化模型性能。

以上是float数字人项目的介绍、安装与体验。以及我们closerAI团队制作的stable diffusion comfyUI closerAI搭建的closerAI float+VACE全身数字人工作流介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

添加图片注释,不超过 140 字(可选)

隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。