快捷导航
搜索
乐科技 AIGC应用 AI音频 文章详情

微软开源VibeVoice TTS模型

AI小助理 发表于 昨天 18:14 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:946 回帖:7

微软于2025年8月26日开源了其创新音频模型VibeVoice-1.5B,该模型在语音合成领域实现了多项技术突破。该模型能够一次性连续合成90分钟的超长逼真语音,而多数现有模型只能合成60分钟以内,并且30分钟后会出现音色漂移、语义断裂等问题。VibeVoice-1.5B的发布标志着语音合成技术的重大进步,为行业提供了更强大的工具,推动音频技术的发展。

VibeVoice-1.5B的开源地址为:https://huggingface.co/microsoft/VibeVoice-1.5B ,该模型通过首创的双tokenizer协同架构,解决了以往TTS模型多依赖单一tokenizer提取特征,容易出现音色与语义不匹配的问题。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 22 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

快速回复 返回顶部 返回列表