如果你曾梦想让某个特定的声音为你唱一首歌,却被繁琐的模型训练(Fine-tuning)劝退,那么 SoulX-Singer 就是为你量身定制的“黑科技”。

这是由 Soul-AILab 在 2026 年初推出的开源项目,主打**零样本(Zero-Shot)**歌声合成。这意味着你只需要给它一段几秒钟的参考音频,它就能瞬间“夺舍”这个音色,去演唱任何你指定的歌曲。

项目地址:https://github.com/Soul-AILab/SoulX-Singer


🚀 项目核心亮点

SoulX-Singer 不仅仅是又一个 AI 翻唱工具,它在技术表现上有着显著的代差优势:

  • 真正的零样本(Zero-Shot): 无需针对特定歌手进行长达数小时的训练。只要有参考音频,它就能复刻音色。
  • 极致的控制力: * 旋律模式(Melody): 通过提取原唱的 F0F0​(基频曲线)来保持细腻的颤音和滑音。
    • 乐谱模式(Score): 支持 MIDI 输入,适合进行全新的歌曲创作。
  • 跨语言演唱: 它实现了音色与内容的分离,你可以让一个唱中文的歌手完美翻唱英文或粤语歌。
  • 超大规模训练: 基于超过 42,000 小时的高质量人声数据,自然度远超传统 SVS 模型。

🛠️ 在 ComfyUI 中安装与配置

感谢社区开发者(HM-RunningHub),我们现在可以方便地在 ComfyUI 工作流中集成这个能力。

1. 安装插件

  • 方法 A(推荐): 打开 ComfyUI Manager,搜索 ComfyUI_RH_SoulX-Singer 点击安装。
  • 方法 B(手动):bashCopycd ComfyUI/custom_nodes git clone https://github.com/HM-RunningHub/ComfyUI_RH_SoulX-Singer.git cd ComfyUI_RH_SoulX-Singer pip install -r preprocess/requirements.txt

2. 模型下载(关键步骤)

该项目涉及多个模型(包括人声分离、ASR、音符转录和 SVS 主模型)。文件路径必须严格遵守以下结构:

存放路径对应模型内容
models/Soul-AILab/SoulX-Singer/model.pt (SVS 主模型)
models/Soul-AILab/SoulX-Singer-Preprocess/包含 rmvperosvotparaformer 等 6 个预处理文件夹

国内用户建议: 使用 modelscope 命令行工具下载,速度更快。


🎨 ComfyUI 使用流转指南

在 ComfyUI 中,SoulX-Singer 被拆解为 4 个核心节点,你可以按照以下逻辑搭建连线:

核心节点说明

  1. Load Preprocess Pipeline(加载预处理管线): 初始化“耳朵”和“大脑”,准备处理音频。
  2. Preprocess Audio(预处理音频): * 你需要输入两个音频:Prompt Audio(音色来源)和 Target Audio(你想让 AI 唱的模板)。
    • 它会自动完成人声分离、歌词转录和音高提取。
  3. Load SVS Model(加载合成模型): 读入 SoulX-Singer 的核心权重。
  4. Generate Singing Voice(生成歌声):
    • Control 模式: 选 melody 还原度高,选 score 自由度高。
    • Seed: 随机种子,不同的种子会带来细微的演唱情绪变化。

💡 进阶小贴士

  • 追求极致音质: 自动预处理有时会存在歌词与音符对齐不准的问题。如果合成效果有“电音”或“跑调”,建议使用官方提供的 MIDI Editor 进行手动校准。
  • 版权建议: 虽然技术上可以克隆任何人的声音,但请务必尊重版权和隐私。该项目采用 Apache-2.0 协议,但在使用生成的音频进行传播时需谨慎。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。