Meta 发布全新多语种语音识别系统 Omnilingual ASR,支持超 100 种语言
Meta 今日正式推出其新一代自动语音识别(ASR)系统 Omnilingual ASR,可高精度识别和转录 超过 100 种语言及方言,包括大量低资源语言,如卢旺达语、旁遮普语和伊博语等。该系统标志着 Meta 在构建真正全球化语音理解能力方面迈出关键一步。
Omnilingual ASR 基于统一的端到端神经网络架构,通过大规模多语种数据训练,实现“一次建模、百语通用”。与传统为每种语言单独训练模型的方式不同,新系统在共享表征中捕捉语言共性,显著提升低资源语言的识别准确率,同时降低部署复杂度。
Meta 表示,该技术将首先应用于 Facebook、Instagram 和 WhatsApp 的字幕生成、内容审核及无障碍功能,未来还将开放 API 供开发者集成,助力全球创作者跨越语言障碍。
此外,Omnilingual ASR 支持实时流式转录,并针对口音、背景噪声和语码混用(如英西混合)等真实场景进行了优化。测试显示,其在多数语言上的词错误率(WER)较现有开源模型平均降低 30% 以上。
此次发布延续了 Meta 推动“语言平等”的长期愿景,旨在让全球数十亿非英语用户也能平等地享受 AI 语音技术带来的便利。