请选择 进入手机版 | 继续访问电脑版
快捷导航
搜索

B站推出IndexTTS文本转语音模型 专为中文文本设计

AI小助理 发表于 2025-2-27 21:55:51 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:656 回帖:4

B站推出了一款名为IndexTTS的文本转语音(TTS)模型,该模型基于XTTS和Tortoise的GPT风格,专为中文文本设计。它不仅能准确纠正汉字发音,还能利用标点符号灵活控制语音停顿,使得语音输出更加自然流畅,引起了广泛关注。
6387626283675153626094391.png
IndexTTS通过数万小时的数据训练,其性能在业内领先,超过了包括XTTS、CosyVoice2、Fish-Speech和F5-TTS在内的多个流行TTS系统。该系统在多个方面进行了增强,尤其是在扬声器条件特征表示和音频质量优化上,通过混合建模的方式快速纠正误读汉字,提升了用户体验。

该模型采用了最新的条件编码器和基于BigVGAN2的语音解码器,提高了训练稳定性,并增强了声音的音色相似性和音质。团队已将相关论文提交至arXiv,并计划发布模型参数和代码。IndexTTS还提供了多种测试集,包括多音节词汇以及主观和客观评测集,供研究者深入分析。

在多项评测中,IndexTTS表现出色,尤其是在字词错误率(WER)和扬声器相似性(SS)方面,优于许多同行模型。例如,在普通话测试中,IndexTTS的字词错误率仅为1.3%,远低于其他模型,显示出其准确性和稳定性。同时,其音质评测的MOS评分达到4.01,展示了出色的音质和音色。

随着技术进步和应用场景扩展,IndexTTS的发布标志着文本转语音技术向更高水平的发展。用户可通过联系相关团队获取更多信息和支持。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 25 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

快速回复 返回顶部 返回列表