📰 正文
Meta AI(FAIR团队)发布了 Omnilingual ASR(全语种自动语音识别系统):一个覆盖超过 1600 种语言 的开源语音识别框架,其中包括 500 种此前从未被 AI 系统识别过的低资源语言。
这项计划的目标十分宏大:
让任何语言都能被机器理解,让任何人都能用自己的语言与世界沟通。
Omnilingual ASR 不是一个单一模型,而是一整套工具链,包括:
Omnilingual wav2vec 2.0:一个拥有 70 亿参数 的多语言自监督语音模型;
Omnilingual ASR Corpus:一个包含 350 种稀缺语言 的语音转录数据集;
开放探索 Demo:用于展示各语言识别效果的在线交互工具。
Meta 的野心:让语音识别不再属于“主流语言”
当今市面上的语音识别系统(如 Whisper、Google ASR、Amazon Transcribe) 虽然对英语、普通话、西班牙语等主流语言的识别精度已接近完美, 但全球 7000 多种语言中,超过 80% 没有被 AI 听见过。
原因在于:
大多数语言缺乏标注语音数据;
模型训练成本高昂;
AI 架构难以规模化泛化。
Meta 的 Omnilingual ASR 旨在解决这些结构性问题:
从“多语言(multilingual)”迈向“全语言(omnilingual)”。
核心技术突破:从 wav2vec 到 LLM-ASR
1️⃣ 70 亿参数的「Omnilingual wav2vec 2.0」
Meta 将经典的 wav2vec 2.0(自监督语音表示模型)扩展至 7B 参数规模, 能从未经标注的语音数据中学习出跨语言的语义表征。
这使模型不必依赖大量人工标注语料,也能理解多语言语音特征。
2️⃣ 双解码架构:CTC 与 Transformer
系统包含两种语音转文本的解码器:
CTC 解码器:传统高效的时间序列对齐方法;
Transformer 解码器(被称为 LLM-ASR): 将大语言模型(LLM)的序列建模能力应用于语音识别, 在低资源语言上大幅提升性能。
成果惊人:
在 1600+ 种语言中,78% 的语言字符错误率(CER)低于 10%,达到目前业内最高水平。
突破性创新:支持「自带语言(Bring Your Own Language)」
以往想让 AI 支持一种新语言,必须收集大量训练数据、聘请专家标注,代价极高。
而 Omnilingual ASR 的最大创新在于:
任何人都能通过提供几段自己的语音样本 + 对应文本,就能让系统“学习”你的语言。
这种能力来自 LLM 式的 in-context learning(上下文学习):
无需再训练;
无需专业硬件;
几个样本即可获得可用识别结果。
这意味着:
语言学家可快速测试稀有方言;
小语种社区可轻松建立本地语音识别系统;
人工智能的语言包容性大幅提升。
模型、数据、工具全开源
Meta 以 Apache 2.0 许可证 发布模型代码,并将数据集以 CC-BY 许可 开源。 所有模型基于 fairseq2 框架(PyTorch 生态),方便研究者复用。
提供的模型系列包括:
🔗 相关资源
📘 Omnilingual ASR 项目主页
🎙 Language Exploration Demo
🗣 Language Technology Partner Program