B站开源文本转语音模型IndexTTS-2.0 解决视频配音同步
B站宣布全面开源其自主研发文本转语音(TTS)系统 ——IndexTTS-2.0。IndexTTS-2.0是B站(Bilibili)自主研发的开源文本转语音(TTS)系统,属于零样本文本转语音模型,具备高度可控性和工业级性能。该模型在自回归架构中实现了精准时长控制,解决了传统逐token生成方式在语音合成中难以精确控制时长的问题,特别适用于视频配音等需要严格音画同步的应用场景。此外,IndexTTS-2.0还支持情感表达与音色的解耦,用户可以独立指定音色和情感来源,提升了语音的自然度和表现力。
IndexTTS-2.0在多个方面实现了技术突破。首先,它结合了GPT风格的生成式模型架构,支持中英文语音合成与克隆,具备多语言支持能力,适用于多语言视频配音等场景。其次,该模型在情感表达和时长控制方面表现突出,能够通过文本描述或音频输入实现情感表达的灵活控制,提升了语音的自然度和表现力。此外,IndexTTS-2.0在工业级应用中表现出色,能够支持内容创作、智能客服、无障碍辅助等场景,推动了语音合成技术的边界。
IndexTTS-2.0的开源项目已全面开源,包括代码、模型和在线体验页面,未来将持续优化模型并开放更多资源,推动多语种交流与全球文化互联。该模型的开源不仅标志着AI语音合成从“实验室玩具”向“产业基础设施”的跨越,也为内容创作、教育普惠、智能交互等领域带来了颠覆性变革。