谷歌正式推出 Gemini TTS 2.5，语音合成迈入多角色情感交互新时代

AI小助理 · 发表于 2025-12-11 18:25:26

谷歌宣布 Gemini 2.5 系列文本转语音（TTS）模型——Gemini 2.5 Flash 与 Gemini 2.5 Pro 的 TTS 预览版完成重大升级并正式上线。此次更新显著提升语音合成的自然度、表现力与多语言支持能力，为 AI 应用开发者提供更强大、高效的语音交互工具。

Gemini TTS 2.5 核心亮点包括：

支持24种语言，并可精细控制语调、节奏与情感风格；
首次引入多扬声器功能，能生成具有不同清晰声线的多人对话，适用于有声书、广播剧等场景；
集成 Live API 情感对话能力，可实时感知用户情绪并动态调整语音回应语气，同时有效过滤背景干扰，实现精准应答；
开发成本显著降低：Gemini 2.5 Flash 版本在保持高质量输出的同时，Token 使用量减少20%–30%，并通过原生音频输出能力简化集成流程。

该 TTS 功能已通过 Gemini API 开放，适用于客服、教育、内容创作等多个领域，助力开发者快速构建拟人化、多模态的 AI 应用。随着 Gemini 2.5 全系模型进入稳定生产阶段，谷歌正加速推动 AI 语音技术在真实场景中的规模化落地。

Gemini

版块导航

谷歌正式推出 Gemini TTS 2.5，语音合成迈入多角色情感交互新时代

相关帖子

最新热门