更多AI前沿科技资讯,请关注我们:

https://aigc.douyoubuy.cn

【closerAI ComfyUI】音乐创作自由:CloserAI音乐创作助手节点+ACE-Step 1.5音乐生成模型,全自动化实现音乐生成的解决方案

添加图片注释,不超过 140 字(可选)

大家好,我是Jimmy。

今期聊聊开源音乐生成模型——Ace-Step1.5。围绕这个模型开发一个通过参数化以及想法接入LLM生成音乐描述与歌词的工作流方案。

🚀 突破边界:AI 音乐进入“秒级”时代

在 AI 视频、AI 绘画卷到飞起的今天,AI 音乐领域也迎来了重磅“炸弹”。由 ACE Studio 与 StepFun(阶跃星辰) 联合推出的开源音乐基础模型 —— ACE-Step 1.5 正式亮相。这不仅仅是一个模型,它标志着高质量音乐创作正式走向平民化。

项目地址:https://huggingface.co/ACE-Step/Ace-Step1.5

🌟 核心亮点:为什么它值得你关注?

  1. 真正的“商用”绿灯:不同于某些版权来源不明的模型,ACE-Step 1.5 采用授权数据与免版税数据训练,配合 MIT 协议,创作者可以放心地将生成的音乐用于商业项目,再无侵权隐患。
  2. 低配显卡的福音:你不需要 A100 这种万元级计算卡。ACE-Step 1.5 本地运行仅需 不到 4GB 显存,这意味着主流的 RTX 3060 甚至笔记本显卡都能轻松驾驭。
  3. 极致的生成速度:在 RTX 3090 上,生成一首完整的曲子仅需不到 10 秒。对于需要大量背景音乐的短视频创作者来说,这简直是生产力黑科技。
  4. 智能“音乐策划师”:内置 Qwen3 驱动的语言模型,它能理解你的简单描述,并自动通过“思维链(CoT)”生成长达 10 分钟的歌曲蓝图,涵盖歌词、旋律走向和风格配置。

🛠️ 强大的技术矩阵

ACE-Step 1.5 提供了灵活的模型组合方案:

  • DiT 模型:提供 Base、SFT 以及更轻快的 Turbo 版本,满足从极致质量到极致速度的不同需求。
  • LM 语言模型:提供 0.6B 到 4B 多种参数规模,支持超过 50 种语言提示词。
  • 全能编辑:不仅能生成,还支持音频重绘(Inpainting)、封面生成以及人声转背景音乐等高级功能。

🌟 comfyUI的实现与体验

目前comfyUI官方已支持。这不仅仅是一个生成模型,它同时具备编辑的能力,但是目前comfyUI官方实现上仅仅是音乐生成,关于它的编辑能力得再等等。

安装方法很简单了,直接在comfyUI模板中,找到音频分类,第一个就是示例工作流。

添加图片注释,不超过 140 字(可选)

打开后,根据注释下载模型,如下放置:

添加图片注释,不超过 140 字(可选)

基础工作流如下:

添加图片注释,不超过 140 字(可选)

但这里的难点在于描述与歌词。一般人都是不会写的了。我们看看ACE-step给出的示例:https://ace-step.github.io/ace-step-v1.5.github.io/

在示例中有关于这两个的写法示例:

添加图片注释,不超过 140 字(可选)

那这就简单了,直接使用LLM,让它归纳总结下形成模板。然后我开发了一个节点: CloserAI音乐创作助手节点

添加图片注释,不超过 140 字(可选)

CloserAI 音乐创作专家并非直接生成音频,而是扮演 Omni-capable Planner(全能规划器) 的角色。

在 ACE-Step 1.5 的生成工作流中,扩散模型(DiT)需要高质量的音乐描述 (Caption) 和结构化歌词来精准控制成曲效果。本节点通过思维链(CoT)逻辑,将用户模糊的创意(如“一首关于新年的歌”)扩展为包含:

  • 专业配器描述:如“distorted chordal texture”或“soaring harmonies”。
  • 精细演唱标注:在歌词中嵌入 [whispered]、[vocal chops] 等动态性能标记。
  • 完整音乐结构:包含标准的 [Intro]、[Bridge] 到 [abrupt silence] 结尾。

🛠️ 安装指南

由于这是一个自定义节点,请按照以下步骤手动部署:

  1. 下载解压CloserAI-Music放置到 custom_nodes 文件夹下
  2. 重启 ComfyUI:启动后,你可以在节点菜单的 CloserAI/音乐创作 分类下找到它。

🎮 使用手册

1. 输入参数详解

参数名说明建议
流派 (Genre)预设了 K-Pop、Phonk、国风融合等 10+ 种主流风格。选“随机”能获得 LLM 带来的惊喜。
能量强度控制歌曲的张力与节奏感。7-9适用于舞曲;2-4 适用于低保真或民谣。
人声类型歌剧女高音、成熟烟嗓、男女对唱等。决定了成曲的音色质感。
歌词生成细节详细完整版:生成完整长篇歌词;结构化大纲:仅生成分段提示。追求商业成曲建议选“详细完整版”。
用户补充想法你的核心创意点。如:“写给咖啡店的午后,带点忧郁”。
乐器勾选物理开关。勾选后会强制要求 Planner 在 Caption 中安排该乐器。

2. 输出端口说明

  • 音乐描述 (Caption):一段 150 字左右的专业段落。这是 ACE-Step 1.5 引导DiT 的核心动力。
  • 详细结构化歌词:带性能标注的完整文本。
  • LLM 核心规划指令:最关键的输出。请将其接入任意 LLM 节点(如 DeepSeek)的 prompt输入口。
  • 创作全量蓝图:用于可视化展示,方便你预览当前的创作配置。

通过这个节点,利用LLM自动完成了两个输入框的内容撰写。以下是closerAI全自动化实现音乐生成的解决方案工作流:

添加图片注释,不超过 140 字(可选)

工作流主要模块:

1、音乐创作大脑模块

添加图片注释,不超过 140 字(可选)

这次开发的节点没有内置LLM,主要因为免费源规则变化了,但不要紧,本地推理我也介绍过两个必备的模型:qwen3-vl和youtu-vl。我们直接用它们就行。

这里我接入qwen3-vl充当大脑,将指令传送给qwen3VL节点。

添加图片注释,不超过 140 字(可选)

然后通过子节点🔍 ACE 内容自动提取器,将结果自动拆分成描述与歌词两个部分。

添加图片注释,不超过 140 字(可选)

然后将抽取出来的两个结果传送给TextEncodeAceStepAudio1节点:

添加图片注释,不超过 140 字(可选)

然 后直接生成就行。

所以整个方案,用户只需要填写你的想法,选一下参数即可。剩下的就交给LLM来处理。

以下是效果:

描述与歌词:

【音乐描述 (Caption)】
以爆炸式爆发力人声主导旋律线,合成器Pad在中高频铺陈如霓虹灯带,鼓组节奏密集如心跳加速,BPM 240下每拍都推着情感向前。低音Kick与Snare交替制造律动张力,Hi-Hat快速切分强化80年代迪斯科节拍感。人声在副歌区层层叠进,配合合成器扫掠声效营造空间纵深。整体氛围热烈、性感且充满电子迷幻质感,押韵结构AABB/ABAB确保每句情感递进精准。

【详细结构化歌词】
[Intro]  
[whispered] 你在我耳边轻颤… [vocal chops] 像心跳在加速…  
[合成器低频脉冲启动]

[Verse]  
霓虹下我靠近你 脚步像鼓点踩碎夜  
指尖滑过你的发 比节奏还急切  
我们是舞池的火 燃烧不退缩  
每秒都为你心跳 电音在耳畔炸裂

[Chorus]  
别停下 别放手 这节拍就是我们的命  
合成器狂飙 我们一起冲破天际线  
你是我唯一的节奏 每个呼吸都是鼓点  
80年代的爱 爆炸成银河里的光!

[Bridge]  
[soaring harmonies] 你转身时我心跳停摆…  
[合成器升频扫弦如激光束]  
我们是电子迷宫里 最亮的星轨

[Outro]  
[abrupt silence]

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

音乐创作ace-stepV1.5应用体验地址:

https://www.runninghub.cn/ai-detail/2019616995624361985

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

如果对你有帮助,请一键三连支持下我,感谢


CloserAI 3D Pose Editor:http://aigc.douyoubuy.cn/2025/12/03/3448/
closerAI-nanoPrompts:
http://closerai.douyoubuy.cn/2025/11/24/3396/
closerAI 分镜设计 软件(exe)本地运行版
closerAI 分镜设计 软件(exe)本地运行版 操作说明文档
以下是closerAIwater节点:
closerAIsorawater Sora 水印移除 ComfyUI 节点
分镜分词器节点:
closerAI分词器节点说明
json结构化提示词 http://aigc.douyoubuy.cn/2025/11/05/3242/

以上是closerAI团队制作的stable diffusion comfyUI closerAI全自动化实现音乐生成的解决方案工作流的介绍,当然,也可以在我们closerAI会员站上获取(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

https://aigc.douyoubuy.cn
添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 199金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。