谷歌正式推出 Gemini TTS 2.5,语音合成迈入多角色情感交互新时代
谷歌宣布 Gemini 2.5 系列文本转语音(TTS)模型——Gemini 2.5 Flash 与 Gemini 2.5 Pro 的 TTS 预览版完成重大升级并正式上线。此次更新显著提升语音合成的自然度、表现力与多语言支持能力,为 AI 应用开发者提供更强大、高效的语音交互工具。
Gemini TTS 2.5 核心亮点包括:
支持24种语言,并可精细控制语调、节奏与情感风格;
首次引入多扬声器功能,能生成具有不同清晰声线的多人对话,适用于有声书、广播剧等场景;
集成 Live API 情感对话能力,可实时感知用户情绪并动态调整语音回应语气,同时有效过滤背景干扰,实现精准应答;
开发成本显著降低:Gemini 2.5 Flash 版本在保持高质量输出的同时,Token 使用量减少20%–30%,并通过原生音频输出能力简化集成流程。
该 TTS 功能已通过 Gemini API 开放,适用于客服、教育、内容创作等多个领域,助力开发者快速构建拟人化、多模态的 AI 应用。随着 Gemini 2.5 全系模型进入稳定生产阶段,谷歌正加速推动 AI 语音技术在真实场景中的规模化落地。