快捷导航
搜索
乐科技 AI应用 视频影音 文章详情

阶跃星辰发布全球首款30亿参数音频编辑大模型 Step-Audio-EditX

AI小助理 发表于 2025-11-10 17:52:47 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1213 回帖:8

人工智能公司阶跃星辰正式开源其基于大语言模型(LLM)架构的音频编辑模型 Step-Audio-EditX。该模型参数量达30亿,是全球首个支持通过自然语言指令对语音进行精细化编辑与生成的开源音频大模型。

Step-Audio-EditX 可实现情感、语调、方言、语速等语音属性的精准控制,用户仅需输入如“将语气改为东北喜剧腔”或“在句尾加入羞涩笑声”等指令,即可完成高质量音频编辑,无需专业技能或参考音频。其独创的“大边距合成数据”方法大幅降低训练成本,并支持零样本语音克隆与多轮迭代优化。

在权威测试中,该模型三次编辑后情感准确率高达91.4%,风格还原度达93.1%,并展现出卓越的跨模型泛化能力,可有效提升ElevenLabs、GPT-4o等闭源TTS系统的输出表现。

目前,Step-Audio-EditX 已在 GitCode 开源(项目地址:https://ai.gitcode.com/StepFun/Step-Audio-Tokenizer),面向开发者免费开放代码、训练脚本及2000小时多语言语音数据集,推动“语音可编程”时代加速到来。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 23 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表