微软于2025年8月26日开源了其创新音频模型VibeVoice-1.5B,该模型在语音合成领域实现了多项技术突破。该模型能够一次性连续合成90分钟的超长逼真语音,而多数现有模型只能合成60分钟以内,并且30分钟后会出现音色漂移、语义断裂等问题。VibeVoice-1.5B的发布标志着语音合成技术的重大进步,为行业提供了更强大的工具,推动音频技术的发展。
VibeVoice-1.5B的开源地址为:
https://huggingface.co/microsoft/VibeVoice-1.5B ,该模型通过首创的双tokenizer协同架构,解决了以往TTS模型多依赖单一tokenizer提取特征,容易出现音色与语义不匹配的问题。