阿里巴巴发布Qwen3-TTS语音合成模型,支持49种音色与多方言
阿里巴巴通义实验室正式推出全新语音合成模型 Qwen3-TTS,主打“零样本、多角色、跨语言”能力,显著优于主流商用引擎。
该模型内置 49种高品质音色,覆盖客服、教育、直播、旁白等多元场景,并支持 10种语言及9种中国方言,包括粤语、四川话、东北话等。用户仅需输入文本,即可秒级切换不同音色与语言,无需重新训练。
在技术指标上,Qwen3-TTS 在英文和中文的词错误率(WER)分别低至 2.8% 和 1.9%,较 Azure TTS 降低18%–24%,刷新开源领域SOTA纪录。其MOS拟人度评分达 4.53(行业平均为4.1),语音自然流畅。
阿里云同步上线“一键朗读”插件,已在上海120所中小学试点,支持教师用家乡话自动生成教学音频。开发者现可通过阿里云控制台免费调用 每月100万字符额度。
据悉,2025年第一季度,Qwen3-TTS还将开放“10秒音色克隆”与80kHz超采样版本,进一步拓展在有声书、播客及虚拟偶像等高保真场景的应用。