小米发布语音理解与生成模型：MiMo-Audio 具有少样本学习与涌现能力

📰 正文

小米研究团队发布MiMo-Audio ，一个统一的语音理解与生成大模型，支持从语音识别到语音生成、风格迁移、对话、唱歌的全能力，并具备强大的少样本学习与涌现能力。

MiMo-Audio 集成了 Instruct TTS（指令驱动的语音合成）功能，并加入了 Thinking Mode（思考模式）。

优化了语音合成的表达效果，使生成的声音不仅符合文字，还能准确体现情绪、角色特征和上下文意图。

它的目标是让机器像人类一样，能听懂语音、用语音交流、并能在新任务上举一反三。

换句话说，MiMo-Audio 就是语音领域的 GPT-3 时刻：

不需要针对每个任务单独训练，

只需少量示例或指令，就能完成新的语音任务。

超过 1亿小时的语音数据训练，学会了像人一样“听懂”和“说出”自然语言。

它能模仿不同的声音、情绪、语速，还能自动续写一段对话或唱歌。

在语音理解与生成测试中超过了其他开源模型，接近一些顶级闭源商用 AI。

这可能意味着未来我们能用语音和 AI 自然交流，甚至让 AI 代替播音员、主持人、讲师或歌手。

背景与动机

问题：现有音频语言模型（如语音识别、语音翻译、TTS）通常依赖任务特定微调，泛化性差。

人类对比：人类能快速适应新任务（如模仿声音、切换情绪、不同语境对话）。

启发：GPT-3 证明了大规模 next-token 预测预训练能带来跨任务泛化。

假设：如果在语音领域采用同样方法 + 超大规模训练数据，能否获得“GPT-3 时刻”？

MiMo-Audio 的主要功能特点

输入：用户提供一段文本 + 一个角色/情绪/风格的指令。

Thinking Process：系统生成一段“思考过程”，解释应如何调整语调、节奏、音色来符合指令。

生成语音：根据思考过程，生成符合设定的语音。

少样本学习（Few-shot Learning）

不需要任务特定微调，只需几个示例或简单指令即可完成新任务。

类似 GPT-3 在文本中的泛化能力。

统一语音处理能力

支持语音理解 + 语音生成的全流程：

语音识别 (ASR)

语音翻译 (Speech Translation)

文本转语音 (TTS)

语音风格迁移（换声、换情绪、调语速）

语音去噪、语音编辑

语音续写（演讲、脱口秀、辩论、唱歌等）

涌现能力（Emergent Abilities）

在训练规模超过一定阈值 (~0.7T tokens) 后，突然表现出未见过的任务能力。

能在少量示例下实现语音转换、风格迁移、跨语言翻译等。

高保真语音重建

借助 MiMo-Audio-Tokenizer，保留了音色、情绪、语速等细节。

在 PESQ、STOI、Speaker Similarity 等指标上领先其他 tokenizer。

语音智能与推理

在 SpeechMMLU、MMAU、MMAR、MMSU-Pro 等基准测试中达到开源 SOTA。

保持小模态差距（语音理解与文本理解能力接近）。

多场景语音生成

能生成自然、真实的语音内容，覆盖：

教学、演讲

游戏直播

诗歌朗诵

辩论对话

歌唱（旋律与情绪一致）

MiMo-Audio 的关键技术方法

MiMo-Audio-Tokenizer（语音离散化器）

Transformer 编码器 + RVQ（20层）+ Vocoder

输出 200 token/s，保留语义和声学信息。

提供统一的高保真音频 token 表征，支持下游建模。

统一建模架构

Patch Encoder：压缩音频 token，降低序列长度。

LLM (MiMo-7B-Base)：统一处理文本和音频 patch 序列。

Patch Decoder：自回归生成音频 patch，并引入延迟机制提升音质。

大规模数据预训练

数据规模：超 1 亿小时语音 + 文本。

数据来源：播客、有声书、会议、新闻、日常交流等。

数据处理：

自动清洗（去噪、说话人分离、ASR 转写）。

多维度标注（语义 + 非语义：音色、情绪、环境）。

两阶段训练策略

Stage 1：理解训练 → 仅在文本 token 上计算损失，提升语音理解。

Stage 2：理解+生成联合训练 → 文本+音频联合建模，学会说话。

思维链（Chain-of-Thought, CoT）融入语音建模

在后训练（instruction-tuning）阶段，加入推理链数据。

让模型在语音理解与生成中具备“思考能力”。

后训练（Instruction-tuning）

使用 100B tokens，涵盖 ASR、TTS、音频理解、口语对话等任务。

合成多风格、多说话人语音对话数据，提升模型在真实对话场景的表现。

性能结果

MiMo-Audio-7B-Base

在语音智能（speech intelligence）和音频理解基准测试中，超越其他开源模型。

具备零样本/少样本泛化能力：可执行训练数据中未见过的任务（语音转换、风格迁移、语音编辑）。

支持高质量的语音续写：如访谈节目、辩论、直播式语音生成。

MiMo-Audio-7B-Instruct

在音频理解、口语对话和 Instruct-TTS 评测中达到或超过闭源模型水准。

官方还提供 MiMo-Audio-Eval 工具包，用于系统化评测不同任务、数据集和模型。

案例展示

情商与安全

智能与指令遵循

中文语言能力与方言

外语能力

DEMO | PAPER | GITHUB | HUGGING FACE

项目地址：https://xiaomimimo.github.io/MiMo-Audio-Demo/

来源：小米发布语音理解与生成模型：MiMo-Audio 具有少样本学习与涌现能力

📰 正文#

📰 正文