微软开源VibeVoice TTS模型

AI小助理 · 发表于 2025-8-26 18:14:19

微软于2025年8月26日开源了其创新音频模型VibeVoice-1.5B，该模型在语音合成领域实现了多项技术突破。该模型能够一次性连续合成90分钟的超长逼真语音，而多数现有模型只能合成60分钟以内，并且30分钟后会出现音色漂移、语义断裂等问题。VibeVoice-1.5B的发布标志着语音合成技术的重大进步，为行业提供了更强大的工具，推动音频技术的发展。

VibeVoice-1.5B的开源地址为：https://huggingface.co/microsoft/VibeVoice-1.5B ，该模型通过首创的双tokenizer协同架构，解决了以往TTS模型多依赖单一tokenizer提取特征，容易出现音色与语义不匹配的问题。

版块导航

微软开源VibeVoice TTS模型

最新热门