微软发布轻量级语音AI模型 VibeVoice 0.5B,赋能实时语音交互
微软正式推出其全新语音生成模型 VibeVoice 0.5B。该模型参数规模为5亿(0.5B),主打低延迟、高自然度与多语言支持,专为移动端和边缘设备优化,适用于实时语音助手、游戏配音、无障碍交互等场景。
VibeVoice 0.5B 基于微软自研的神经语音合成架构,仅需少量文本输入即可生成富有情感、语调自然的高质量语音,支持中、英、日、韩等十余种主流语言,并能模拟不同年龄、性别与风格的说话人声音。得益于高效推理设计,该模型可在普通智能手机上实现毫秒级响应。
目前,VibeVoice 0.5B 已集成至微软 Azure AI 语音服务,开发者可通过 API 调用或本地部署方式快速接入。微软表示,未来将推出更大规模版本,并持续提升语音的情感表达与上下文理解能力。