StepFun AI 推出 Step-Audio-R1：新一代音频大语言模型

AI小助理 · 发表于 2025-12-1 18:21:51

人工智能公司 StepFun AI 今日正式发布其首款音频大语言模型 Step-Audio-R1。该模型深度融合语音理解、生成与语义推理能力，支持高保真语音合成、跨语言口音迁移、情感化对话及复杂音频指令执行，标志着 StepFun 在多模态 AI 领域迈出关键一步。

Step-Audio-R1 基于超过 50 万小时的多语种、多场景语音数据训练，具备强大的上下文感知能力，可准确解析带噪声、重叠说话或方言混杂的真实环境音频。同时，模型支持“文本→语音”“语音→文本→意图→响应→语音”的端到端闭环交互，在智能客服、车载助手、无障碍交互和虚拟人等场景中展现显著优势。

“Step-Audio-R1 不仅‘听得清’，更能‘听得懂’并‘说得准’，” StepFun AI 联合创始人兼首席科学家表示，“我们致力于打造真正以人类自然语音为中心的 AI 交互体验。”

即日起，Step-Audio-R1 已通过 StepFun 开放平台提供 API 服务，并面向企业客户开放私有化部署方案。未来，该模型将集成至 StepFun 的多模态智能体框架中，支撑更复杂的具身智能应用。

版块导航

StepFun AI 推出 Step-Audio-R1：新一代音频大语言模型

最新热门