📰 正文
小米研究团队发布MiMo-Audio ,一个统一的语音理解与生成大模型,支持从语音识别到语音生成、风格迁移、对话、唱歌的全能力,并具备强大的少样本学习与涌现能力。
MiMo-Audio 集成了 Instruct TTS(指令驱动的语音合成) 功能,并加入了 Thinking Mode(思考模式)。
优化了语音合成的表达效果,使生成的声音不仅符合文字,还能准确体现情绪、角色特征和上下文意图。
它的目标是让机器像人类一样,能 听懂语音、用语音交流、并能在新任务上举一反三。
换句话说,MiMo-Audio 就是语音领域的 GPT-3 时刻:
不需要针对每个任务单独训练,
只需少量示例或指令,就能完成新的语音任务。
超过 1亿小时的语音数据训练,学会了像人一样“听懂”和“说出”自然语言。
它能模仿不同的声音、情绪、语速,还能自动续写一段对话或唱歌。
在语音理解与生成测试中超过了其他开源模型,接近一些顶级闭源商用 AI。
这可能意味着未来我们能用语音和 AI 自然交流,甚至让 AI 代替播音员、主持人、讲师或歌手。
背景与动机
问题:现有音频语言模型(如语音识别、语音翻译、TTS)通常依赖任务特定微调,泛化性差。
人类对比:人类能快速适应新任务(如模仿声音、切换情绪、不同语境对话)。
启发:GPT-3 证明了大规模 next-token 预测预训练能带来跨任务泛化。
假设:如果在语音领域采用同样方法 + 超大规模训练数据,能否获得“GPT-3 时刻”?
MiMo-Audio 的主要功能特点
输入:用户提供一段文本 + 一个角色/情绪/风格的指令。
Thinking Process:系统生成一段“思考过程”,解释应如何调整语调、节奏、音色来符合指令。
生成语音:根据思考过程,生成符合设定的语音。
少样本学习(Few-shot Learning)
不需要任务特定微调,只需几个示例或简单指令即可完成新任务。
类似 GPT-3 在文本中的泛化能力。
统一语音处理能力
支持 语音理解 + 语音生成 的全流程:
语音识别 (ASR)
语音翻译 (Speech Translation)
文本转语音 (TTS)
语音风格迁移(换声、换情绪、调语速)
语音去噪、语音编辑
语音续写(演讲、脱口秀、辩论、唱歌等)
涌现能力(Emergent Abilities)
在训练规模超过一定阈值 (~0.7T tokens) 后,突然表现出未见过的任务能力。
能在少量示例下实现语音转换、风格迁移、跨语言翻译等。
高保真语音重建
借助 MiMo-Audio-Tokenizer,保留了音色、情绪、语速等细节。
在 PESQ、STOI、Speaker Similarity 等指标上领先其他 tokenizer。
语音智能与推理
在 SpeechMMLU、MMAU、MMAR、MMSU-Pro 等基准测试中达到开源 SOTA。
保持 小模态差距(语音理解与文本理解能力接近)。
多场景语音生成
能生成自然、真实的语音内容,覆盖:
教学、演讲
游戏直播
诗歌朗诵
辩论对话
歌唱(旋律与情绪一致)
MiMo-Audio 的关键技术方法
MiMo-Audio-Tokenizer(语音离散化器)
Transformer 编码器 + RVQ(20层)+ Vocoder
输出 200 token/s,保留语义和声学信息。
提供统一的 高保真音频 token 表征,支持下游建模。
统一建模架构
Patch Encoder:压缩音频 token,降低序列长度。
LLM (MiMo-7B-Base):统一处理文本和音频 patch 序列。
Patch Decoder:自回归生成音频 patch,并引入 延迟机制 提升音质。
大规模数据预训练
数据规模:超 1 亿小时语音 + 文本。
数据来源:播客、有声书、会议、新闻、日常交流等。
数据处理:
自动清洗(去噪、说话人分离、ASR 转写)。
多维度标注(语义 + 非语义:音色、情绪、环境)。
两阶段训练策略
Stage 1:理解训练 → 仅在文本 token 上计算损失,提升语音理解。
Stage 2:理解+生成联合训练 → 文本+音频联合建模,学会说话。
思维链(Chain-of-Thought, CoT)融入语音建模
在后训练(instruction-tuning)阶段,加入推理链数据。
让模型在语音理解与生成中具备“思考能力”。
后训练(Instruction-tuning)
使用 100B tokens,涵盖 ASR、TTS、音频理解、口语对话等任务。
合成 多风格、多说话人语音对话数据,提升模型在真实对话场景的表现。
性能结果
MiMo-Audio-7B-Base
在语音智能(speech intelligence)和音频理解基准测试中,超越其他开源模型。
具备 零样本/少样本泛化能力:可执行训练数据中未见过的任务(语音转换、风格迁移、语音编辑)。
支持高质量的 语音续写:如访谈节目、辩论、直播式语音生成。
MiMo-Audio-7B-Instruct
在音频理解、口语对话和 Instruct-TTS 评测中达到或超过 闭源模型水准。
官方还提供 MiMo-Audio-Eval 工具包,用于系统化评测不同任务、数据集和模型。
案例展示
情商与安全
智能与指令遵循
中文语言能力与方言
外语能力
DEMO | PAPER | GITHUB | HUGGING FACE
项目地址:https://xiaomimimo.github.io/MiMo-Audio-Demo/