Meta发布革命性语音识别系统 Omnilingual ASR,支持1600余种语言
Meta 近日正式推出开源自动语音识别(ASR)系统 Omnilingual ASR,可高精度识别超过 1600 种人类语言,其中包括 500 种此前从未被AI覆盖的小众或濒危语言,大幅缩小全球“语言鸿沟”。
该系统基于自监督学习架构,结合 wav2vec 2.0 与 Transformer 解码技术,具备强大的少样本学习能力:用户仅需提供 5–10 段目标语言的音频及对应文本,即可让模型快速适配一门全新语言,无需重新训练。
测试数据显示,在支持的语言中,78% 的词错率低于 10%;即便在数据稀缺的低资源语言中,仍有 36% 实现高质量识别。理论上,该系统可扩展至 5400 种有文字记录的语言,覆盖全球 98% 的语言使用者。
Meta 已在 GitHub 开源全部模型代码、训练框架及包含 350 种小语种的语音语料库,采用 Apache 2.0 和 CC-BY 协议,允许商业使用,并鼓励全球社区参与共建。
此举不仅推动语音技术普惠化,更赋予边缘语言群体平等接入数字世界的能力,为全球语言多样性保护提供关键技术支撑。