谷歌Gemini 2.5原生音频功能开启人机交互

AI小助理 · 发表于 2025-6-5 18:24:25

2025年6月3日，谷歌正式发布了其最新一代大语言模型——Gemini 2.5版本。此次更新不仅在多模态理解与生成能力上实现了全面升级，更在音频交互领域推出了革命性的原生音频功能，为开发者和用户带来了前所未有的自然对话体验。
原生音频功能：让AI“听”得更懂，“说”得更像

Gemini 2.5的原生音频功能是其最引人注目的亮点之一。该功能允许用户通过文本指令生成高质量的语音输出，支持对语气、语调、情感表达和发音风格的精细控制。无论是温柔的低语，还是激昂的演讲，Gemini 2.5都能生动地模拟出来，捕捉到每一个细微的情感变化。此外，该功能还支持多扬声器对话生成，即模拟两个不同的声音角色同时或交替发声，为用户带来更加丰富的互动体验。

Gemini 2.5的音频输出不仅限于单向的语音合成，还具备“情感对话”和“主动音频”功能。前者能够识别用户声音中的情感并作出适当回应，后者则能自动屏蔽背景杂音，智能判断是否回应，从而实现更自然、流畅的人机对话。这种双向交互能力，使得Gemini 2.5在虚拟助手、教育、娱乐等多个领域展现出巨大的潜力。
多语言支持：打破语言壁垒，实现全球无缝切换

Gemini 2.5的原生音频功能支持超过24种语言，并能够在多种语言之间实现无缝切换。这意味着用户无论身处何地，都能使用自己熟悉的语言与AI进行交流，而无需担心语言障碍。这一功能不仅提升了用户体验，也为全球化应用提供了强有力的支持。
开发者友好：集成于Google AI Studio与Vertex AI

为了方便开发者快速上手和测试，Gemini 2.5的原生音频功能已集成于Google AI Studio和Vertex AI平台。开发者可以通过这些工具直接构建和部署基于Gemini 2.5的音频应用，无需复杂的开发流程。此外，Google还推出了Gemini Live API的预览版，进一步简化了音频交互的开发流程，使开发者能够更高效地利用这一强大功能。
安全与透明：SynthID水印技术保障音频真实性

在确保音频输出质量的同时，谷歌也高度重视音频内容的安全性和透明度。所有Gemini 2.5生成的音频都嵌入了SynthID水印技术，以确保音频内容的可追溯性和真实性，防止滥用和伪造。这一技术的应用，不仅增强了用户对AI生成内容的信任，也为AI伦理和合规性提供了保障。

版块导航

谷歌Gemini 2.5原生音频功能开启人机交互

最新热门