更多AI前沿科技资讯,请关注我们:
【closerAI ComfyUI】音乐创作自由:CloserAI音乐创作助手节点+ACE-Step 1.5音乐生成模型,全自动化实现音乐生成的解决方案

大家好,我是Jimmy。
今期聊聊开源音乐生成模型——Ace-Step1.5。围绕这个模型开发一个通过参数化以及想法接入LLM生成音乐描述与歌词的工作流方案。
🚀 突破边界:AI 音乐进入“秒级”时代
在 AI 视频、AI 绘画卷到飞起的今天,AI 音乐领域也迎来了重磅“炸弹”。由 ACE Studio 与 StepFun(阶跃星辰) 联合推出的开源音乐基础模型 —— ACE-Step 1.5 正式亮相。这不仅仅是一个模型,它标志着高质量音乐创作正式走向平民化。
项目地址:https://huggingface.co/ACE-Step/Ace-Step1.5
🌟 核心亮点:为什么它值得你关注?
- 真正的“商用”绿灯:不同于某些版权来源不明的模型,ACE-Step 1.5 采用授权数据与免版税数据训练,配合 MIT 协议,创作者可以放心地将生成的音乐用于商业项目,再无侵权隐患。
- 低配显卡的福音:你不需要 A100 这种万元级计算卡。ACE-Step 1.5 本地运行仅需 不到 4GB 显存,这意味着主流的 RTX 3060 甚至笔记本显卡都能轻松驾驭。
- 极致的生成速度:在 RTX 3090 上,生成一首完整的曲子仅需不到 10 秒。对于需要大量背景音乐的短视频创作者来说,这简直是生产力黑科技。
- 智能“音乐策划师”:内置 Qwen3 驱动的语言模型,它能理解你的简单描述,并自动通过“思维链(CoT)”生成长达 10 分钟的歌曲蓝图,涵盖歌词、旋律走向和风格配置。
🛠️ 强大的技术矩阵
ACE-Step 1.5 提供了灵活的模型组合方案:
- DiT 模型:提供 Base、SFT 以及更轻快的 Turbo 版本,满足从极致质量到极致速度的不同需求。
- LM 语言模型:提供 0.6B 到 4B 多种参数规模,支持超过 50 种语言提示词。
- 全能编辑:不仅能生成,还支持音频重绘(Inpainting)、封面生成以及人声转背景音乐等高级功能。
🌟 comfyUI的实现与体验
目前comfyUI官方已支持。这不仅仅是一个生成模型,它同时具备编辑的能力,但是目前comfyUI官方实现上仅仅是音乐生成,关于它的编辑能力得再等等。
安装方法很简单了,直接在comfyUI模板中,找到音频分类,第一个就是示例工作流。

打开后,根据注释下载模型,如下放置:

基础工作流如下:

但这里的难点在于描述与歌词。一般人都是不会写的了。我们看看ACE-step给出的示例:https://ace-step.github.io/ace-step-v1.5.github.io/
在示例中有关于这两个的写法示例:

那这就简单了,直接使用LLM,让它归纳总结下形成模板。然后我开发了一个节点: CloserAI音乐创作助手节点

CloserAI 音乐创作专家并非直接生成音频,而是扮演 Omni-capable Planner(全能规划器) 的角色。
在 ACE-Step 1.5 的生成工作流中,扩散模型(DiT)需要高质量的音乐描述 (Caption) 和结构化歌词来精准控制成曲效果。本节点通过思维链(CoT)逻辑,将用户模糊的创意(如“一首关于新年的歌”)扩展为包含:
- 专业配器描述:如“distorted chordal texture”或“soaring harmonies”。
- 精细演唱标注:在歌词中嵌入 [whispered]、[vocal chops] 等动态性能标记。
- 完整音乐结构:包含标准的 [Intro]、[Bridge] 到 [abrupt silence] 结尾。
🛠️ 安装指南
由于这是一个自定义节点,请按照以下步骤手动部署:
- 下载解压CloserAI-Music放置到 custom_nodes 文件夹下
- 重启 ComfyUI:启动后,你可以在节点菜单的 CloserAI/音乐创作 分类下找到它。
🎮 使用手册
1. 输入参数详解
| 参数名 | 说明 | 建议 |
|---|---|---|
| 流派 (Genre) | 预设了 K-Pop、Phonk、国风融合等 10+ 种主流风格。 | 选“随机”能获得 LLM 带来的惊喜。 |
| 能量强度 | 控制歌曲的张力与节奏感。 | 7-9适用于舞曲;2-4 适用于低保真或民谣。 |
| 人声类型 | 歌剧女高音、成熟烟嗓、男女对唱等。 | 决定了成曲的音色质感。 |
| 歌词生成细节 | 详细完整版:生成完整长篇歌词;结构化大纲:仅生成分段提示。 | 追求商业成曲建议选“详细完整版”。 |
| 用户补充想法 | 你的核心创意点。 | 如:“写给咖啡店的午后,带点忧郁”。 |
| 乐器勾选 | 物理开关。勾选后会强制要求 Planner 在 Caption 中安排该乐器。 |
2. 输出端口说明
- 音乐描述 (Caption):一段 150 字左右的专业段落。这是 ACE-Step 1.5 引导DiT 的核心动力。
- 详细结构化歌词:带性能标注的完整文本。
- LLM 核心规划指令:最关键的输出。请将其接入任意 LLM 节点(如 DeepSeek)的 prompt输入口。
- 创作全量蓝图:用于可视化展示,方便你预览当前的创作配置。
通过这个节点,利用LLM自动完成了两个输入框的内容撰写。以下是closerAI全自动化实现音乐生成的解决方案工作流:

工作流主要模块:
1、音乐创作大脑模块

这次开发的节点没有内置LLM,主要因为免费源规则变化了,但不要紧,本地推理我也介绍过两个必备的模型:qwen3-vl和youtu-vl。我们直接用它们就行。
这里我接入qwen3-vl充当大脑,将指令传送给qwen3VL节点。

然后通过子节点🔍 ACE 内容自动提取器,将结果自动拆分成描述与歌词两个部分。

然后将抽取出来的两个结果传送给TextEncodeAceStepAudio1节点:

然 后直接生成就行。
所以整个方案,用户只需要填写你的想法,选一下参数即可。剩下的就交给LLM来处理。
以下是效果:
描述与歌词:
【音乐描述 (Caption)】 以爆炸式爆发力人声主导旋律线,合成器Pad在中高频铺陈如霓虹灯带,鼓组节奏密集如心跳加速,BPM 240下每拍都推着情感向前。低音Kick与Snare交替制造律动张力,Hi-Hat快速切分强化80年代迪斯科节拍感。人声在副歌区层层叠进,配合合成器扫掠声效营造空间纵深。整体氛围热烈、性感且充满电子迷幻质感,押韵结构AABB/ABAB确保每句情感递进精准。 【详细结构化歌词】 [Intro] [whispered] 你在我耳边轻颤… [vocal chops] 像心跳在加速… [合成器低频脉冲启动] [Verse] 霓虹下我靠近你 脚步像鼓点踩碎夜 指尖滑过你的发 比节奏还急切 我们是舞池的火 燃烧不退缩 每秒都为你心跳 电音在耳畔炸裂 [Chorus] 别停下 别放手 这节拍就是我们的命 合成器狂飙 我们一起冲破天际线 你是我唯一的节奏 每个呼吸都是鼓点 80年代的爱 爆炸成银河里的光! [Bridge] [soaring harmonies] 你转身时我心跳停摆… [合成器升频扫弦如激光束] 我们是电子迷宫里 最亮的星轨 [Outro] [abrupt silence]
本地算力不够怎么办?
如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

音乐创作ace-stepV1.5应用体验地址:
https://www.runninghub.cn/ai-detail/2019616995624361985
注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151
通过这个链接第一次注册送1000点,每日登录送100点
最后几句:
如果对你有帮助,请一键三连支持下我,感谢
CloserAI 3D Pose Editor:http://aigc.douyoubuy.cn/2025/12/03/3448/ closerAI-nanoPrompts: http://closerai.douyoubuy.cn/2025/11/24/3396/ closerAI 分镜设计 软件(exe)本地运行版closerAI 分镜设计 软件(exe)本地运行版 操作说明文档以下是closerAIwater节点:closerAIsorawater Sora 水印移除 ComfyUI 节点分镜分词器节点:closerAI分词器节点说明json结构化提示词 http://aigc.douyoubuy.cn/2025/11/05/3242/
以上是closerAI团队制作的stable diffusion comfyUI closerAI全自动化实现音乐生成的解决方案工作流的介绍,当然,也可以在我们closerAI会员站上获取(查看原文)。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:JimmyMo
更多AI前沿科技资讯,请关注我们:

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

评论(0)