Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频 比肩Whisper

📰 正文

阿里通义千问团队开源了 Qwen3-ASR 系列语音识别模型，1.7B 参数量在多项基准测试中超越 Whisper-large-v3 和 GPT-4o Transcribe，0.6B 轻量版一秒能转写 2000 秒音频。

Apache 2.0 开源协议，免费可商用。

三个模型，覆盖三个场景

Qwen3-ASR 这次一口气发了三个模型：

Qwen3-ASR-1.7B 是旗舰版，17 亿参数，基于 Transformer 编码器-解码器架构，底座是通义千问的多模态模型 Qwen3-Omni。

支持 30 种语言和 22 种中文方言的识别，包括粤语、闽南语、吴语、东北话、四川话等。在多项公开和内部基准测试上都拿到了开源模型里的最好成绩。

Qwen3-ASR-0.6B 是轻量版，6 亿参数。精度比旗舰版低一些，但速度非常快：首字延迟最低 92 毫秒，在 128 并发下一秒能转写 2000 秒的音频（相当于同时处理 33 分钟的录音），单条音频最长支持 20 分钟。低配 PC 也能跑。

Qwen3-ForcedAligner-0.6B 是时间戳对齐模型，能给语音和文本精确打上字级时间戳，支持 11 种语言，最长处理 5 分钟的音频。做字幕、做标注、做语音搜索都用得上。

能力上到底强在哪

官方做了非常详细的对比测试，横向覆盖了 Whisper-large-v3、GPT-4o Transcribe、Gemini 系列和豆包 ASR 系列。

英文：除了常规公开基准全面领先，阿里还自建了一套覆盖 16 个国家口音的英语测试集。结果显示 1.7B 版在整体表现上超过了 GPT-4o Transcribe 和 Whisper-large-v3。这个测试集的设计思路值得注意：公开基准上各家模型差距已经很小了，真正拉开差距的是各种口音和噪音场景。

中文和方言：普通话、粤语加 22 种方言，1.7B 版整体领先商用 API 和开源模型。从官方 Demo 来看，绕口令、快语速、高噪音环境下的识别效果都很稳。

唱歌识别：这是一个很少有模型认真做的能力。Qwen3-ASR 支持带背景音乐的歌曲转写，中文歌词错误率 13.91%，英文歌词 14.60%。虽然不算完美，但在带 BGM 的条件下这个数据已经很实用了。

和 Whisper 相比呢

Whisper 在语言覆盖数量上仍然占优（99 种 vs 52 种），但在中文场景、流式推理、歌曲识别和推理速度上，Qwen3-ASR 全面领先。特别是 0.6B 版的效率优势很大：参数量只有 Whisper-large-v3 的 40%，速度却快了一个数量级。

Flash 版本

在开源模型之后，阿里又推出了 Qwen3-ASR-Flash，这是部署在百炼平台上的 API 服务版本。

Flash 版本有个很实用的能力：定制化识别。你可以给模型提供一份背景文本，格式随意，可以是词汇表、一段文字、甚至一整篇文档，模型会根据这些上下文来调整识别结果。

比如你做医疗领域的语音转写，给它一份药品名称和术语表，它识别的时候就会优先匹配这些专业词汇。不需要微调模型，直接在推理时传入上下文就行。

Flash 版本还支持实时流式识别、情感识别（能分辨惊讶、愉快、悲伤、愤怒等情绪），以及录音文件异步转写（最长支持 12 小时）。

谁会用到？

几个典型场景：

做内容的，会议录音转文字、播客剪辑、视频字幕生成，这些都是高频需求。之前要么用付费 API，要么用识别不太准的免费工具，现在可以本地部署一个 0.6B 的模型，又快又准还免费。

做业务系统的，客服录音质检、电话回访分析、智能语音助手，需要大批量跑转写的场景，0.6B 版本的吞吐量优势就很明显了。

做音视频工具的，强制对齐模型可以精准地给每个字词打上时间戳，做字幕自动对齐、语音剪辑定位、TTS 数据标注都用得上。

做多语言业务的，52 种语言加 22 种中文方言的覆盖面，基本上全球主要语言和中国各地方言都包了。

这意味着什么

语音识别这个领域，OpenAI 的 Whisper 从 2022 年开源以来一直是事实标准。大多数开源语音工具链（包括我们日常用的 whisper-cpp）都是围绕它建的。

Qwen3-ASR 的出现不一定能取代 Whisper 的生态位，但它在几个关键维度上确实拉开了差距：流式推理、中文方言、歌曲识别、推理效率。尤其是 0.6B 版的效率数据（一秒转写 2000 秒音频），对于需要大规模批量处理的场景来说非常有吸引力。

Apache 2.0 开源协议意味着可以直接商用，这一点和 Whisper 的 MIT 协议一样友好。模型权重、推理框架、评估数据集全部开源，配套了 vLLM 批量推理、异步服务、流式推理等完整工具链。

语音识别的开源竞争，终于开始卷起来了。

怎么用？

开源版本最简单的方式是装 qwen-asr 这个 Python 包，pip install 就行，加载模型时会自动下载权重。也可以用官方 Docker 镜像一键部署。

想用 API 服务的话，百炼平台上有 Qwen3-ASR-Flash 和 Qwen3-ASR-Flash-Realtime 两个版本，前者处理录音文件，后者做实时流式识别。

来源：Ai-Hakase 的推文 | https://x.com/ai_hakase_/status/2032291818805584063 官方博客：https://qwen.ai/blog?id=qwen3asr GitHub：https://github.com/QwenLM/Qwen3-ASR

来源：Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频比肩Whisper

📰 正文#

📰 正文