更多AI前沿科技资讯,请关注我们:closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台
【closerAI ComfyUI】强!5分钟连贯故事+同步配音+超强ID一致性!京东开源JoyAI-Echo,直接封神长视频赛道!稳定且高质量!

大家好,我是Jimmy。最近开源界很热闹,开源的图像、视频项目逐渐多了起来。最近京东开源一个拓展长时音频视频生成项目:JoyAI-Echo,这个项目目前专注于文生视频和多镜头长视频生成,并采用音视频配对存储技术,实现人物、音色一致性的长视频生成。甚至能实现长达5分钟的一致性生成!
我们先看看它的官方效果:
JoyAI-Echo项目介绍

JoyAI-Echo 这套框架之所以厉害,是因为它通过四项关键升级,直接解决了长视频生成的几个‘老大难’问题。
核心的杀手锏是它的‘跨模态视听记忆库’,有了它,生成的视频哪怕长达五分钟,人物长相和声音也能始终保持高度一致,不会出现中途‘变脸’或‘变声’的情况。再加上它独家的后训练流程,结合了记忆强化学习和分布匹配蒸馏技术,生成速度直接起飞,比原来快了 7.5 倍,画面质量和对齐效果也做得非常扎实。除了画质够硬,它还特别‘聪明’:你可以直接通过对话给它下指令,实时修改视频里的内容;配合轻量级的超分辨率模块,既保证了高清画质,又不会有卡顿感。
它真正做到了长距离的内容一致性、分钟级的实时推理、流畅的对话式交互,以及高质量的画面输出,视频创作效率直接拉满。
核心技术创新
JoyAI-Echo通过四大关键技术突破,解决了长视频生成的核心痛点:
- 模态音频-视觉记忆库:这是框架的核心创新。它能在长达5分钟的视频中持续保持角色外貌、面部特征和语音音色的一致性。通过将视觉记忆和音频记忆配对存储,新镜头能有效参考先前内容,实现故事级别的连贯性。
- DMD蒸馏与加速推理:采用Distribution Matching Distillation(DMD)技术,结合基于记忆的强化学习后训练管道,实现7.5倍的速度提升。同时显著提高了视觉质量和提示遵循度,使实时流式生成成为可能。
- 联合音频-视频生成:单管道同时输出同步的视频和音频,支持多镜头故事生成,每一个新镜头都受益于先前的记忆上下文。
- 交互式与高分辨率支持:集成对话式Director Agent,用户可以通过自然语言指令实时编辑视频;轻量级超分辨率模块在保持流式延迟的同时确保高清输出。
comfyUI中的技术实现与体验
目前,社区大佬已量化出GGUF模型以支持在comfyUI中实现,以下节点仓库,并提供了Q6与Q8模型:


一、下载好它的节点插件和模型
注意模型下载后的放置位置
Q6与Q8GGUF模型放置models/gguf,
gemma-3-12b-it-qat-Q4_0.gguf放models/gguf
connector0放置clip中
二、comfyUI工作流
在运行时候有些小报错,我也优化了一下这个节点
如下图示:

它这个需要将提示词转为Json格式的。直
接使用示例工作流的提示词先跑了一段5秒的。
那提示词转JSON格式的话,我们直接生成LLM指令,利用LLM去实现转换。
这就可以使用我之前开发的closerAI-agnes节点:【closerAI ComfyUI】最强王炸:文本、图像、视频生成等一网打尽,comfyUI插件节点支持,一套全面的生产力工具方案!强!

通过LLM指令引导LLM生成内容的同时进行格式转换与内容扩写。
得到转换后的Json结构的提示词:
ID_A is a heroic female superhero with a determined gaze and sharp features. ID_A wears a sleek red and blue bodysuit with a flowing cape, presenting a powerful and agile aura. ID_A’s movements are swift and precise, with clear muscular tension visible in the frame, naturally synchronized with high-flying combat actions. At normal speed, ID_A hovers mid-air with a fierce expression, completing a powerful punch gesture. The whole movement aligns closely with the intense scene rhythm.
The shot uses realistic cinematic style imagery with vibrant daylight tones and a dramatic atmosphere. A wide shot frames ID_A and the giant dragon, clearly presenting the scale of the confrontation while retaining the complete sky background. The background includes scattered clouds and distant city silhouettes, creating an epic setting. The tone is natural and immersive without exaggerated rendering.
ID_A instantly launches a concentrated heat vision beam, thoroughly piercing the dragon’s scales with smooth and natural dynamic changes. Right after, ID_A executes a swift aerial kick with a steady posture. The camera stably tracks the whole movement process. As the dragon collapses into a pile of smoke, the bright sunlight breaks through the haze. The tense atmosphere fades completely, restoring peace.
Faint wind whistling and subtle impact thuds are audible throughout the scene. No prominent background music. The audio focus remains on core action sounds and subtle scene ambience. The scene rhythm shifts naturally from high tension to relief, with coherent and smooth emotional transition.

这里要注意的是,提示词要换行代表一个镜头哦,如果你输入了5秒长度,就代表是一个镜头5秒,我上面提示词四段代表4个镜头,所以生成时长20秒。如此类推;

总结:JoyAI-Echo不仅仅是一个视频生成模型,更是向交互式、长时序、跨模态一致性AI视频创作迈出的重要一步。它将长视频生成的“不可能”变为现实,为创作者、影视从业者和开发者提供了强大工具。未来随着I2V支持和Director Agent的进一步完善,JoyAI-Echo有望成为下一代AI视频内容生产的核心引擎。
项目地址:https://github.com/jd-opensource/JoyAI-Echo
模型:https://huggingface.co/jdopensource/JoyAI-Echo/tree/main
会员小伙伴可在小站上下载本期工作流、优化节点、模型
本地算力不够怎么办?
如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

Bernini_多参考视频生成应用体验地址:
注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151
通过这个链接第一次注册送1000点,每日登录送100点
最后几句:
如果对你有帮助,请一键三连支持下我,感谢!以下是小站主流的一些AI工具应用:
- CloserAI AI短剧工作台(本地化解决方案)
https://aigc.douyoubuy.cn/ai-agent/ - closerAI FlowStudio本地AIGC无限画布创作工具
https://aigc.douyoubuy.cn/closerai-flowstudio/ - closerAI AI绘画大师万象视界:
https://aigc.douyoubuy.cn/closerai-vision/ - CLOSERAI POD电商印花批量生产工作站:
https://aigc.douyoubuy.cn/?page_id=420541 - 印花提取:
https://aigc.douyoubuy.cn/yinhua/
以上是就是本期的分享,当然,更多工作流、资讯、插件、工具也可以在我们closerAI会员站上获取(查看原文)。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:JimmyMo
更多AI前沿科技资讯,请关注我们:

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

评论(0)