阿里巴巴发布Qwen3-TTS语音合成模型，支持49种音色与多方言

AI小助理 · 发表于 2025-12-8 18:16:01

阿里巴巴通义实验室正式推出全新语音合成模型 Qwen3-TTS，主打“零样本、多角色、跨语言”能力，显著优于主流商用引擎。

该模型内置 49种高品质音色，覆盖客服、教育、直播、旁白等多元场景，并支持 10种语言及9种中国方言，包括粤语、四川话、东北话等。用户仅需输入文本，即可秒级切换不同音色与语言，无需重新训练。

在技术指标上，Qwen3-TTS 在英文和中文的词错误率（WER）分别低至 2.8% 和 1.9%，较 Azure TTS 降低18%–24%，刷新开源领域SOTA纪录。其MOS拟人度评分达 4.53（行业平均为4.1），语音自然流畅。

阿里云同步上线“一键朗读”插件，已在上海120所中小学试点，支持教师用家乡话自动生成教学音频。开发者现可通过阿里云控制台免费调用每月100万字符额度。

据悉，2025年第一季度，Qwen3-TTS还将开放“10秒音色克隆”与80kHz超采样版本，进一步拓展在有声书、播客及虚拟偶像等高保真场景的应用。

千问

版块导航

阿里巴巴发布Qwen3-TTS语音合成模型，支持49种音色与多方言

相关帖子

最新热门