
更多AI前沿科技资讯,请关注我们:
closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台
【closerAI ComfyUI】
大家好,我是Jimmy。minimax最近在音频克隆上有很大突破,但是下面介绍这一款也不赖。在音频克隆这片充满无限潜力的蓝海中,尽管最近minimax的成绩耀眼夺目,但下面要介绍的这一款TTS(文本转语音)工具——IndexTTS同样实力不凡,绝非等闲之辈。其中声音克隆是它的最大亮点。

一、IndexTTS简介
IndexTTS是一个强大的文本到语音转换工具,它通过在ComfyUI中实现自定义节点,为用户带来了高质量的语音合成功能。该工具不仅支持中文和英文文本的转换,还能基于参考音频复刻声音特征,为用户提供了丰富多样的语音合成体验。
功能特点
(一)多语言支持
支持中文和英文文本的合成,满足了不同用户对于多语言语音合成的需求。无论是中文的抑扬顿挫,还是英文的流畅自然,IndexTTS都能准确地呈现出来。
(二)声音特征复刻
基于参考音频复刻声音特征是IndexTTS的一大亮点。用户可以通过提供参考音频,让合成的语音具有与参考音频相似的声音特质,实现个性化的声音定制。这一功能在很多场景下都非常实用,比如为特定的角色或人物定制专属的语音。
(三)语速调节
支持调节语速,用户可以根据自己的需求灵活调整语音的速度。虽然原版可能在后处理实现效果上存在一些折损,但IndexTTS在这方面进行了优化,能够让用户获得更加自然流畅的语音输出。
(四)多种参数控制
提供了多种音频合成参数供用户控制,如temperature、top_p、top_k、repetition_penalty、length_penalty、num_beams、max_mel_tokens和sentence_split等。这些参数的调整可以让用户更加精细地控制语音合成的质量和特性,满足不同场景下的需求。
二、在comfyUI中的实现
下载节点:https://github.com/chenpipi0807/ComfyUI-Index-TTS?tab=readme-ov-file
这个应该是目前TTS领域安装最简单的节点之一了。下载节点解压放置节点文件夹中。

然后下载模型,以下文件夹结构的所有内容全部下载。链接如下:
https://huggingface.co/IndexTeam/IndexTTS-1.5/tree/main


下载后放置comfyui/models/IndexTTS-1.5下。然后重启即可。
然后直接搭建一个工作流。
直接输入indextts拉出节点。如下图示:

使用非常简单啦。大概流程如下:加载一个音频,这个音频就是要克隆的音色音频。然后输入文本,也就是要用这个克隆音色读出来的文本内容。可以调整的参数有很多啦。可以自行摸索下。不过主要要调的就是语速、温度。
加载一个自己录的音频,输出后:
加载一个其它人的:这个生成时加速了语速,大家觉得是谁。
本地算力不够怎么办?
如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

runninghub.cn真人转3D模型工作流体验地址:
https://www.runninghub.cn/ai-detail/1924331514039816194
注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151
通过这个链接第一次注册送1000点,每日登录送100点
最后几句:
这个应该是目前最简单高效的声音克隆与音频合成的解决方案了!当然它有它的局限性,符号什么的不能识别,只支持中英文。相信后续迭代会更出色。

以上是文本转音频IndexTTS的介绍与使用方法,以及closerAI团队制作的stable diffusion comfyUI closerAI搭建的closerAI indexTTS工作流介绍,大家可以根据工作流思路进行尝试搭建。
当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:JimmyMo
更多AI前沿科技资讯,请关注我们:
closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
评论(1)
难得我有一次超前了。。。哈哈,indexTTS和sparkTTS,我上周玩的