2025年6月4日,Fish Audio 宣布正式推出其最新版本的 OpenAudio S1,这是一款集成了先进语音合成技术的开源工具,支持多种语言和声音克隆功能,为开发者和用户提供了更加灵活、高效的语音生成解决方案。
Fish Audio 作为一家专注于语音生成技术的创新公司,自2023年成立以来,凭借其在 So-VITS-SVC、GPT-SoVITS 等技术上的突破,迅速在开源社区中赢得了广泛认可。其团队在 GitHub 上的项目获得了超过7万星标,奠定了语音合成领域的技术基础。2024年,Fish Audio 进一步推出了 Fish Speech 1.0 版本,整合了 VQ-GAN 与 Llama 技术,为语音合成技术注入了新的活力。2025年,Fish Audio 继续推进其技术生态的扩展,推出了音色商店,集成名人声线与网红音色模板,进一步丰富了用户的选择。
此次发布的 OpenAudio S1 是 Fish Audio 在语音合成领域的重要里程碑。该版本基于 Fish Speech 1.5 的技术积累,进一步优化了模型性能,支持 13 种语言,训练数据突破 100 万小时,错误率降至 2%。用户可以直接在 Fish Audio 官网上体验这一技术,平台新增了 AI 音效生成与语音转文本功能,通过 PyQt6 图形界面与云服务双轨部署方案,为音乐人、教育机构及企业客户提供全场景语音解决方案。
OpenAudio S1 的主要特点包括:
多语言支持:支持中文、英文、日语、法语、德语等多种语言,满足全球用户的需求。
零样本文本到语音:用户无需提供参考音频,即可生成高质量的语音输出。
声音克隆:用户只需提供 10 秒的音频,即可克隆出相似度极高的声音模型。
情感语音生成:模型能够生成带有情感的语音,使得合成的语音更加生动和真实。
低延迟与高效能:平台提供超低延迟的语音合成,确保用户在使用时获得流畅的体验。
自定义训练:用户可以上传音频或直接录制,简单几步即可创建个性化声音模型,选择是否公开,保护隐私。
Fish Audio 的 OpenAudio S1 不仅在技术上实现了突破,还在用户体验上进行了全面优化。平台新增了 AI 音效生成与语音转文本功能,通过 PyQt6 图形界面与云服务双轨部署方案,为音乐人、教育机构及企业客户提供全场景语音解决方案,日均处理请求量超百万次。此外,Fish Audio 还为开发者提供了强大的 API 接口,支持将语音合成功能集成到自己的应用中。
Fish Audio 的 OpenAudio S1 是一款集成了先进语音合成技术的开源工具,为开发者和用户提供了更加灵活、高效的语音生成解决方案。随着 Fish Audio 技术生态的持续扩展,未来将有更多创新应用和场景得以实现。