人工智能公司阶跃星辰正式开源其基于大语言模型(LLM)架构的音频编辑模型 Step-Audio-EditX。该模型参数量达30亿,是全球首个支持通过自然语言指令对语音进行精细化编辑与生成的开源音频大模型。
Step-Audio-EditX 可实现情感、语调、方言、语速等语音属性的精准控制,用户仅需输入如“将语气改为东北喜剧腔”或“在句尾加入羞涩笑声”等指令,即可完成高质量音频编辑,无需专业技能或参考音频。其独创的“大边距合成数据”方法大幅降低训练成本,并支持零样本语音克隆与多轮迭代优化。
在权威测试中,该模型三次编辑后情感准确率高达91.4%,风格还原度达93.1%,并展现出卓越的跨模型泛化能力,可有效提升ElevenLabs、GPT-4o等闭源TTS系统的输出表现。
目前,Step-Audio-EditX 已在 GitCode 开源(项目地址:
https://ai.gitcode.com/StepFun/Step-Audio-Tokenizer),面向开发者免费开放代码、训练脚本及2000小时多语言语音数据集,推动“语音可编程”时代加速到来。