📰 正文
阿里通义千问团队开源了 Qwen3-ASR 系列语音识别模型,1.7B 参数量在多项基准测试中超越 Whisper-large-v3 和 GPT-4o Transcribe,0.6B 轻量版一秒能转写 2000 秒音频。
Apache 2.0 开源协议,免费可商用。
三个模型,覆盖三个场景
Qwen3-ASR 这次一口气发了三个模型:
Qwen3-ASR-1.7B 是旗舰版,17 亿参数,基于 Transformer 编码器-解码器架构,底座是通义千问的多模态模型 Qwen3-Omni。
支持 30 种语言和 22 种中文方言的识别,包括粤语、闽南语、吴语、东北话、四川话等。在多项公开和内部基准测试上都拿到了开源模型里的最好成绩。
Qwen3-ASR-0.6B 是轻量版,6 亿参数。精度比旗舰版低一些,但速度非常快:首字延迟最低 92 毫秒,在 128 并发下一秒能转写 2000 秒的音频(相当于同时处理 33 分钟的录音),单条音频最长支持 20 分钟。低配 PC 也能跑。
Qwen3-ForcedAligner-0.6B 是时间戳对齐模型,能给语音和文本精确打上字级时间戳,支持 11 种语言,最长处理 5 分钟的音频。做字幕、做标注、做语音搜索都用得上。
能力上到底强在哪
官方做了非常详细的对比测试,横向覆盖了 Whisper-large-v3、GPT-4o Transcribe、Gemini 系列和豆包 ASR 系列。
英文: 除了常规公开基准全面领先,阿里还自建了一套覆盖 16 个国家口音的英语测试集。结果显示 1.7B 版在整体表现上超过了 GPT-4o Transcribe 和 Whisper-large-v3。这个测试集的设计思路值得注意:公开基准上各家模型差距已经很小了,真正拉开差距的是各种口音和噪音场景。
中文和方言: 普通话、粤语加 22 种方言,1.7B 版整体领先商用 API 和开源模型。从官方 Demo 来看,绕口令、快语速、高噪音环境下的识别效果都很稳。
唱歌识别: 这是一个很少有模型认真做的能力。Qwen3-ASR 支持带背景音乐的歌曲转写,中文歌词错误率 13.91%,英文歌词 14.60%。虽然不算完美,但在带 BGM 的条件下这个数据已经很实用了。
和 Whisper 相比呢
Whisper 在语言覆盖数量上仍然占优(99 种 vs 52 种),但在中文场景、流式推理、歌曲识别和推理速度上,Qwen3-ASR 全面领先。特别是 0.6B 版的效率优势很大:参数量只有 Whisper-large-v3 的 40%,速度却快了一个数量级。
Flash 版本
在开源模型之后,阿里又推出了 Qwen3-ASR-Flash,这是部署在百炼平台上的 API 服务版本。
Flash 版本有个很实用的能力:定制化识别。你可以给模型提供一份背景文本,格式随意,可以是词汇表、一段文字、甚至一整篇文档,模型会根据这些上下文来调整识别结果。
比如你做医疗领域的语音转写,给它一份药品名称和术语表,它识别的时候就会优先匹配这些专业词汇。不需要微调模型,直接在推理时传入上下文就行。
Flash 版本还支持实时流式识别、情感识别(能分辨惊讶、愉快、悲伤、愤怒等情绪),以及录音文件异步转写(最长支持 12 小时)。
谁会用到?
几个典型场景:
做内容的,会议录音转文字、播客剪辑、视频字幕生成,这些都是高频需求。之前要么用付费 API,要么用识别不太准的免费工具,现在可以本地部署一个 0.6B 的模型,又快又准还免费。
做业务系统的,客服录音质检、电话回访分析、智能语音助手,需要大批量跑转写的场景,0.6B 版本的吞吐量优势就很明显了。
做音视频工具的,强制对齐模型可以精准地给每个字词打上时间戳,做字幕自动对齐、语音剪辑定位、TTS 数据标注都用得上。
做多语言业务的,52 种语言加 22 种中文方言的覆盖面,基本上全球主要语言和中国各地方言都包了。
这意味着什么
语音识别这个领域,OpenAI 的 Whisper 从 2022 年开源以来一直是事实标准。大多数开源语音工具链(包括我们日常用的 whisper-cpp)都是围绕它建的。
Qwen3-ASR 的出现不一定能取代 Whisper 的生态位,但它在几个关键维度上确实拉开了差距:流式推理、中文方言、歌曲识别、推理效率。尤其是 0.6B 版的效率数据(一秒转写 2000 秒音频),对于需要大规模批量处理的场景来说非常有吸引力。
Apache 2.0 开源协议意味着可以直接商用,这一点和 Whisper 的 MIT 协议一样友好。模型权重、推理框架、评估数据集全部开源,配套了 vLLM 批量推理、异步服务、流式推理等完整工具链。
语音识别的开源竞争,终于开始卷起来了。
怎么用?
开源版本最简单的方式是装 qwen-asr 这个 Python 包,pip install 就行,加载模型时会自动下载权重。也可以用官方 Docker 镜像一键部署。
想用 API 服务的话,百炼平台上有 Qwen3-ASR-Flash 和 Qwen3-ASR-Flash-Realtime 两个版本,前者处理录音文件,后者做实时流式识别。
来源:Ai-Hakase 的推文 | https://x.com/ai_hakase_/status/2032291818805584063 官方博客:https://qwen.ai/blog?id=qwen3asr GitHub:https://github.com/QwenLM/Qwen3-ASR