添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

【closerAI ComfyUI】更强更像更连贯!字节跳动重磅开源!Phantom-14B模型让AI视频生成进入主题一致时代!

大家好,我是Jimmy。在4月下旬时我们介绍过关于字节新的项目phantom:

【closerAI ComfyUI】继续卷!挑战闭源!字节发布跨模态对齐统一视频生成框架Phantom,多图融合生成一致性视频!

当时发布的是1.3B的模型。在前两天发布开源了其14B模型。这次,带来更强的人物、主体的一致性视频生成!

添加图片注释,不超过 140 字(可选)

Phantom: 字节跳动推出的主题一致视频生成框架

Phantom是由字节跳动智能创作团队开发的一个创新的视频生成框架,专注于实现主题一致性的视频生成。该项目基于现有的文本到视频和图像到视频架构,通过重新设计联合文本-图像注入模型,实现了跨模态对齐,特别强调人类生成中的主题一致性,同时增强了ID保留的视频生成能力。

项目链接:https://hf-mirror.com/bytedance-research/Phantom

添加图片注释,不超过 140 字(可选)

项目的核心特点

  1. 主题一致性:能够保持参考图像中的主题特征在生成的视频中保持一致
  2. 多参考支持:支持单参考和多参考的主题到视频生成
  3. 高质量输出:支持480P和720P分辨率视频生成
  4. 跨模态对齐:利用文本-图像-视频三元组数据实现跨模态对齐

模型版本

目前Phantom项目发布了两个主要模型版本:

Phantom-Wan-1.3B:基础版本,发布于2025年4月21日

Phantom-Wan-14B:更强大的版本,发布于2025年5月27日

应用场景

Phantom框架可广泛应用于:

  1. 影视动画制作
  2. 广告创意生成
  3. 教育视频制作
  4. 社交媒体内容创作
  5. 游戏开发中的动画生成
添加图片注释,不超过 140 字(可选)

在comfyUI中的实现与体验

1、下载phantom 14B模型:

KJ大佬已对原项目的模型进行量化,结合他的wanvedio KJ节点进行使用:

fp16版本:https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Phantom-Wan-14B_fp16.safetensors

fp8版本:https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Phantom-Wan-14B_fp8_e4m3fn.safetensors

如果你的本地设备没有24G,

建议你下载Phantom-Wan-14B_fp8_e4m3fn.safetensors 模型。

下载后放置:models\diffusion_models\Phantom-Wan

添加图片注释,不超过 140 字(可选)

2、更新wanVideo节点

https://github.com/kijai/ComfyUI-WanVideoWrapper

添加图片注释,不超过 140 字(可选)

3、运行工作流:

基于wan2.1的视频生成,在KJ版本的视频生成工作流中将模型重新选择成:

Phantom-Wan-14B_fp8_e4m3fn.safetensors

添加图片注释,不超过 140 字(可选)

基于万相wan2.1的支持phantom的多图参考视频生成工作流:

添加图片注释,不超过 140 字(可选)

主要多了这个节点:wanvideo phanton embeds,其中主要设置的参数是:nun frames,这个帧率。默认81。向上递增就对显存要求越高,根据设备情况尝试。

添加图片注释,不超过 140 字(可选)

加载两张图,一张人物主体,一张物体,尺寸我调整下,因为设备不好,跑太久了,384*480。搞十几二十分钟

添加图片注释,不超过 140 字(可选)

大家参考下吧。通过工作流执行:

添加图片注释,不超过 140 字(可选)

效果如下,我将视频转GIF了,效果如下:

添加图片注释,不超过 140 字(可选)

再试一个:加载一个人和一件物体。提示词写美女拿起杯子讲话

添加图片注释,不超过 140 字(可选)

效果如下:

添加图片注释,不超过 140 字(可选)

gif视频如下:她拿起了杯了。可见在我低配生成的情况下,人物,杯子都保持得不错!

添加图片注释,不超过 140 字(可选)

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

runninghub.cn 电商多主体一致性视频生成(Phantom14B)体验地址:

https://www.runninghub.cn/ai-detail/1927934376116666370

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

在AI视频生成中,主体一致性的生成是十分重要的,特别是图生视频。字节跳动的phantom项目基于通义万相视频生成模型wan2.1,能有针对性地实现多主体一致性的视频生成,也就是能相对稳定地控制ID身份,保持主体细节。但着实跑起来有点吃力。

添加图片注释,不超过 140 字(可选)

以上是phantom项目的介绍、安装与comfyUI体验的内容。以及closerAI团队制作的stable diffusion comfyUI closerAI搭建的closerAI phantom多主体参考视频生成工作流介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。