B站推出了一款名为IndexTTS的文本转语音(TTS)模型,该模型基于XTTS和Tortoise的GPT风格,专为中文文本设计。它不仅能准确纠正汉字发音,还能利用标点符号灵活控制语音停顿,使得语音输出更加自然流畅,引起了广泛关注。
![]() IndexTTS通过数万小时的数据训练,其性能在业内领先,超过了包括XTTS、CosyVoice2、Fish-Speech和F5-TTS在内的多个流行TTS系统。该系统在多个方面进行了增强,尤其是在扬声器条件特征表示和音频质量优化上,通过混合建模的方式快速纠正误读汉字,提升了用户体验。 该模型采用了最新的条件编码器和基于BigVGAN2的语音解码器,提高了训练稳定性,并增强了声音的音色相似性和音质。团队已将相关论文提交至arXiv,并计划发布模型参数和代码。IndexTTS还提供了多种测试集,包括多音节词汇以及主观和客观评测集,供研究者深入分析。 在多项评测中,IndexTTS表现出色,尤其是在字词错误率(WER)和扬声器相似性(SS)方面,优于许多同行模型。例如,在普通话测试中,IndexTTS的字词错误率仅为1.3%,远低于其他模型,显示出其准确性和稳定性。同时,其音质评测的MOS评分达到4.01,展示了出色的音质和音色。 随着技术进步和应用场景扩展,IndexTTS的发布标志着文本转语音技术向更高水平的发展。用户可通过联系相关团队获取更多信息和支持。 |