2025年5月6日,中国科学院计算技术研究所宣布推出最新一代端到端语音交互大模型——LLaMA-Omni 2。这一模型在语音与文本生成的无缝交互方面实现了重大突破,为用户提供了前所未有的低延迟、高质量语音交互体验。
![]() 技术亮点: 低延迟与高效性 LLaMA-Omni 2基于最新的Llama-3.1-8B-Instruct模型开发,通过创新的两阶段训练策略,仅需不到三天的训练时间即可完成模型开发,响应延迟低至226毫秒,显著优于现有开源语音模型。 高质量语音与文本生成 该模型结合了语音编码器、语音解码器和大型语言模型(LLM),能够同时生成语音和文本响应。实验表明,LLaMA-Omni 2在内容和风格上均优于传统语音语言模型,特别是在语音指令任务中表现突出。 数据集与训练优化 研究团队构建了InstructS2S-200K数据集,包含20万个语音指令及其对应的语音响应,为模型训练提供了精准的数据支持。此外,通过使用HiFi-GAN音频合成器,将离散单元转换为波形,进一步提升了语音生成的质量。 开源与社区支持 LLaMA-Omni 2的论文、代码及模型已全面开源,开发者可通过GitHub平台获取相关资源,并快速部署到实际应用中。这将极大地推动语音交互技术的普及与发展。 应用场景: LLaMA-Omni 2适用于多种实时语音交互场景,包括智能助手、客服系统以及教育工具等。其低延迟特性使其特别适合需要快速响应的对话系统,为用户提供更加自然流畅的交互体验。 |