B站推出IndexTTS文本转语音模型专为中文文本设计

AI小助理 · 发表于 2025-2-27 21:55:51

B站推出了一款名为IndexTTS的文本转语音（TTS）模型，该模型基于XTTS和Tortoise的GPT风格，专为中文文本设计。它不仅能准确纠正汉字发音，还能利用标点符号灵活控制语音停顿，使得语音输出更加自然流畅，引起了广泛关注。

IndexTTS通过数万小时的数据训练，其性能在业内领先，超过了包括XTTS、CosyVoice2、Fish-Speech和F5-TTS在内的多个流行TTS系统。该系统在多个方面进行了增强，尤其是在扬声器条件特征表示和音频质量优化上，通过混合建模的方式快速纠正误读汉字，提升了用户体验。

该模型采用了最新的条件编码器和基于BigVGAN2的语音解码器，提高了训练稳定性，并增强了声音的音色相似性和音质。团队已将相关论文提交至arXiv，并计划发布模型参数和代码。IndexTTS还提供了多种测试集，包括多音节词汇以及主观和客观评测集，供研究者深入分析。

在多项评测中，IndexTTS表现出色，尤其是在字词错误率（WER）和扬声器相似性（SS）方面，优于许多同行模型。例如，在普通话测试中，IndexTTS的字词错误率仅为1.3%，远低于其他模型，显示出其准确性和稳定性。同时，其音质评测的MOS评分达到4.01，展示了出色的音质和音色。

随着技术进步和应用场景扩展，IndexTTS的发布标志着文本转语音技术向更高水平的发展。用户可通过联系相关团队获取更多信息和支持。

版块导航

B站推出IndexTTS文本转语音模型专为中文文本设计

最新热门

版块导航

B站推出IndexTTS文本转语音模型 专为中文文本设计

最新热门

B站推出IndexTTS文本转语音模型专为中文文本设计