【closerAI ComfyUI】实时字幕、精准对齐、方言识别，阿里 Qwen3-ASR 震撼发布，AI 语音交互的最后一块拼图齐了！支持 52 种语言方言-closerAI(未授权)

更多AI前沿科技资讯，请关注我们：

https://aigc.douyoubuy.cn

【closerAI ComfyUI】实时字幕、精准对齐、方言识别，阿里 Qwen3-ASR 震撼发布，AI 语音交互的最后一块拼图齐了！支持 52 种语言方言

大家好，我是Jimmy。qwen3TTS刚开源不久后：3秒音频克隆声音！支持10大语种！Qwen3-TTS重塑语音合成：声音复刻、声音设计、多人音频等，comfyui部署使用简单高效！自媒体必备神器！又迎来了一波增强，ASR模型一个语音转文本的模型开源，至此，一个完整的音频到文本，文本到音频的解决方案已出现。

我们先来介绍下Qwen3-ASR

🚀 Qwen3-ASR 完整生态

Qwen3-ASR 是由阿里巴巴 Qwen 团队最新推出的开源语音识别（ASR）模型家族。该项目基于其强大的多模态基座模型 Qwen3-Omni 构建，旨在提供高性能、低延迟且多语言支持的语音转文字解决方案。

以下是该项目的主要核心亮点：

1. 模型成员

Qwen3-ASR-1.7B：旗舰版本，旨在达到开源界的 SOTA（州级）性能，并能与顶尖的商业 ASR API 竞争。
Qwen3-ASR-0.6B：轻量化版本，主打极速推理。在 128 并发下，其吞吐量可达 2000 倍速。
Qwen3-ForcedAligner-0.6B：专门用于强制对齐的模型，能够精确预测词级或字符级的时间戳（支持 11 种语言）。

2. 核心能力

全能支持：支持 52 种语言和方言，包括 30 种主要语言和 22 种中国方言（如粤语、四川话、闽南语等），还能识别各国的英语口音。
复杂场景适应：在背景噪音、歌唱音频、长音频等复杂声学环境下表现稳健。
流式与离线统一：单个模型即可支持流式实时识别和离线批量识别。
强制对齐：通过专门的 ForcedAligner，支持长达 5 分钟语音的精准时间戳预测。

3. 技术优势与推理框架

架构优势：继承了 Qwen3 系列强大的语言理解能力。
高效推理：深度集成 vLLM 和 FlashAttention 2，显著降低显存占用并提升推理速度。
工具链完备：提供官方 Python 包 qwen-asr，支持一键部署 Gradio Web Demo、API 服务或 Docker 容器镜像。

项目链接：https://github.com/QwenLM/Qwen3-ASR

🚀 Qwen3-ASR comfyUI中的实现

ComfyUI-Qwen3-ASR 是由社区开发者提供的适配插件，它将 Qwen3-ASR 的强大能力引入到了目前最流行的可视化 AI 工作流平台 ComfyUI 中。

项目链接：https://github.com/DarioFT/ComfyUI-Qwen3-ASR

如何开始使用 ComfyUI 插件？

安装：通过 ComfyUI Manager 搜索，ComfyUI-Qwen3-ASR 或手动将项目 clone 到 custom_nodes文件夹。
模型下载：插件通常会自动或引导你从 HuggingFace/ModelScope 下载 Qwen3-ASR-1.7B权重。
连接节点：在搜索菜单中输入 "Qwen3" 找到对应节点，输入音频（Load Audio），输出文本（STRING）。

安装后，打开示例工作流，如下图示：

模型会自动下载，下载后就能正常使用。

加载一个音频：

然后执行工作流：

就能转换成文本：

你知道吗？今天的天气真的很特别特别到，不知道该怎么形容的特别。早上起来的时候，我看了看窗外，那外面的景色吧，它就是外面的景色，说不上好看，也说不上不好看，反正就是外面的景色。我穿上了衣服，这衣服呢有袖子有领口，和其他衣服也没啥太大区别，但又好像有点不一样。至于哪里不一样，我也说不上来。我走到了厨房，打开了冰箱，冰箱里有东西，也有空间，东西在空间里放着，空间容纳着东西，就这么相互存在着。然后我又关上了冰箱，站在厨房里想着，我为什么要走进厨房？好像是有点事，但又好像没事，就这么站了一会儿，又走了出来。

这个时间再接入qwen3TTS 克隆节点

执行后输出克隆声音与合成内容：

这就是完整的音频转文本，文本转音频的实现过程。

虽然在comfyUI不能做到实时字幕，受形态限制。其实qwen3 ASR 是能做到实时字幕的效果，即所说即所见。那官方也提供了实现的方法，具体看其github。

为了方便在comfyUI将语音转换文本，我开发了个qwen3TTS 助手：

交互式录音，直接点击录音，录完就能转成文本。

然后工作流如下：

除了交互式录音功能，在Qwen3TTS中，特别为声音设计开发了一个参数与智能提示词的节点，用于声音设计提示词的撰写：

closerAI Qwen3TTS-designAssistant

支持多种模式，内置LLM，也支持第三方LLM，

这是通过它生成的声音设计提示词：

角色姓名：林夏晴

然后通过声音设计节点生成：

最后合成的音频如下：

以上就是关于qwen3TTS\ASR的全部解决方案工作流的内容。它是开源界音频转文本、文本转语音的性价比高的模型。

本地算力不够怎么办？

如果本地设备算力不好的小伙伴，推荐使用线上comfyUI来运行体验：runninghub.cn

qwen3TTS+InfiniteTalk数字人应用体验地址：

https://www.runninghub.cn/ai-detail/2015656735674998786

注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点，每日登录送100点

最后几句：

如果对你有帮助，请一键三连支持下我，感谢

CloserAI 3D Pose Editor:

http://aigc.douyoubuy.cn/2025/12/03/3448/

closerAI-nanoPrompts:

http://closerai.douyoubuy.cn/2025/11/24/3396/

closerAI 分镜设计软件（exe）本地运行版

http://aigc.douyoubuy.cn/2025/11/22/3350/

以下是closerAIwater节点：

http://aigc.douyoubuy.cn/2025/10/22/3121/

分镜分词器节点：

http://aigc.douyoubuy.cn/2025/10/11/3080/

json结构化提示词

http://aigc.douyoubuy.cn/2025/11/05/3242/

以上是closerAI团队制作的stable diffusion comfyUI closerAI-qwen3TTS+ASR音频转文本+文本转音频工作流，我们closerAI会员站上获取(查看原文)。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：JimmyMo

更多AI前沿科技资讯，请关注我们：

https://aigc.douyoubuy.cn

隐藏内容

本内容需权限查看

普通用户: 199金币
VIP会员: 免费
永久会员: 免费

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

【closerAI ComfyUI】实时字幕、精准对齐、方言识别，阿里 Qwen3-ASR 震撼发布，AI 语音交互的最后一块拼图齐了！支持 52 种语言方言