阿里通义开源语音交互大模型 Fun-Audio-Chat-8B,支持端到端情感化对话
阿里巴巴通义实验室正式开源新一代端到端语音交互大模型 Fun-Audio-Chat-8B。该模型无需依赖传统ASR-LLM-TTS多模块拼接,可直接实现“语音输入—语音输出”的自然对话,显著降低延迟与错误率。
Fun-Audio-Chat-8B 具备强大的情绪感知能力,能通过语速、语气、停顿等细微信号识别用户情绪,并作出共情式回应。同时,模型支持复杂语音指令理解与工具调用,适用于车载交互、智能客服、情感陪伴等场景。
得益于创新的双分辨率架构,该模型在保持高质量语音合成的同时,GPU计算开销降低近50%,更适配资源受限的终端设备。目前,Fun-Audio-Chat-8B 已在魔搭社区、Hugging Face 和 GitHub 开源,推动语音AI生态加速发展。