xAI重磅发布Grok Voice Agent API,开放实时语音智能体能力
2025年12月18日,埃隆·马斯克旗下人工智能公司 xAI 正式推出 Grok Voice Agent API,面向全球开发者开放其已在 Tesla 车载系统与移动应用中验证的先进语音代理技术。
该 API 基于 xAI 自研全栈语音技术,集成语音活动检测、音频分词器与端到端音频模型,支持数十种语言的实时识别与合成,平均首音频响应时间低于1秒。在 Big Bench Audio 评测中,Grok Voice Agent 综合性能位列第一。
Grok Voice Agent 具备实时网络搜索与工具调用能力,可动态执行多步骤任务,并兼容 OpenAI Realtime API 规范,便于现有开发者快速迁移。API 提供 Ara、Eve、Leo 等多种自然表达风格的语音选项,满足不同场景下的交互需求。
定价方面,Grok Voice Agent API 按使用时长计费,每分钟仅需 0.05 美元,兼顾高性能与高性价比。开发者可通过 xAI LiveKit 插件 或 浏览器语音沙盒 快速接入并测试。
此次发布标志着 xAI 在构建多模态、具身智能体方向迈出关键一步,进一步推动 Grok 系列模型从文本走向实时语音交互场景。