📰 正文
Ming-UniAudio 是一款由蚂蚁集团旗下 Inclusion AI 团队 开发的 统一语音语言模型(Speech Large Language Model, Speech LLM)。 它的目标是实现一个能够 理解、生成、以及编辑语音的统一系统——这意味着模型不仅能“听懂”和“说话”,还可以“修改语音内容”,无论是在语义层面(如文字替换)还是声学层面(如音色、情绪、语速变化)。
传统语音模型通常有两个缺陷: 1.
理解与生成分离:语音识别模型只能听懂(ASR),而语音合成模型只能说(TTS),两者互不兼容。
离散表示损失:大部分模型使用离散语音token,导致细节丢失、音质下降。
Ming-UniAudio 的核心创新在于:
✅ 使用 连续表示(Continuous Representation) 作为统一语音表示方式; ✅ 在同一个模型中实现了 语义理解、语音生成和自由编辑 的全流程。
它能做什么?
听懂语音(中英文+方言)
生成自然流畅的语音
直接“编辑”语音,比如:
把语音里的“妈妈”改成“爸爸”
让声音变成四川话或东北话
改变语速、音调或音量
加入背景音乐或情绪(快乐、平静等)
技术核心与创新点
1️⃣ MingTok-Audio:统一连续语音Tokenizer
传统语音模型将声音切割成离散片段(如音素token),这样虽然计算方便,但会导致音质下降。
MingTok-Audio 提出一种新的 连续音频tokenizer,可将语音编码为连续向量,不再离散化,从而在保留声学细节的同时,也便于生成和编辑任务共享同一种表示形式。
简而言之:MingTok-Audio 是整个系统的“桥梁”——它将声音转化成一种模型可理解且可还原的“通用语言”。
2️⃣ Ming-UniAudio:统一语音语言模型
Ming-UniAudio 是第一个基于连续表示的 语音语言模型(Speech LLM)
实现了三个核心功能:
该模型可以在接收到自然语言指令后,直接对语音内容进行修改,例如:
“把‘妈妈’改成‘爸爸’”;
“让这句话变成四川口音”;
“把说话语速调慢到0.7倍”;
“在这段语音后面加轻快的背景音乐”;
“让这句话听起来更开心一些”。
这种 自由形式(Free-form)语音编辑 在此前的语音模型中几乎不存在,而图像领域的多轮编辑(如在一张图片上多次编辑局部细节)已经被广泛验证。Ming-UniAudio 将这一能力引入语音领域。
3️⃣ Ming-UniAudio-Edit:自由语音编辑系统
基于统一语音表示,模型可以执行以下编辑任务:
这些操作全部通过自然语言指令完成,无需语音工程技能,体现了“语音编辑的自然语言化”。
4️⃣ Ming-Freeform-Audio-Edit-Benchmark:首个语音编辑基准
团队提出了一个公开基准,用于评估语音编辑模型的性能。 该基准测试模型在语义一致性(是否听懂并准确修改)与声学自然性(编辑后是否自然流畅)方面的表现。 这将有助于推动未来语音编辑领域的标准化评估。
系统能力
(1)语音理解能力
中英文语音识别:支持普通话、英语混合语音。
方言识别:如粤语、上海话、闽南语、川渝方言等。
语境识别(Context ASR):能结合上下文理解语音含义。例如:
银行业务语音(提及Zelle、ACH、FDIC等)
酒店与会员体系对话
汽车行业术语识别(如LED矩阵灯、MBUX屏幕)
(2)语音生成与合成
语音克隆:复制输入声音的音色和语气风格来生成新句子。
多语言合成:跨语言TTS,可在英语输入的风格下生成中文语音,或反之。
跨模态生成:输入一段语音 + 一段文字提示 → 输出新的语音版本。
(3)音频编辑演示
网页上提供多类语音编辑的演示视频,包括:
插入、替换、删除文字的语音结果;
调节语速、音高、音量;
加入背景声;
将语气变成“愉快”或“平静”等。
示例说明
🎯 1. Context Edit – Insert(语音插入)
功能说明: 在原始语音的指定位置插入新的词语或短语,并保持语音的自然连贯性与音色一致。
例子:
指令(Instruction):在“好”之前插入“哇”
模型会在不破坏整体节奏的情况下,将“哇”自然地插入句中,就像重新录制一样。
应用场景: 修补录音错误、为视频添加强调语气、微调语音脚本而无需重录。
🌀 2. Context Edit – Substitution(语音替换)
功能说明: 在语音中替换特定词汇(如人名、地名或其他内容),同时保持音色、语调、环境声一致。
示例:
原音(Source):我想对于妈妈来说……
目标(Target):我想对于爸爸来说…… 👉 模型自动将“妈妈”替换为“爸爸”,听起来像原声本人重新说了一遍。
应用场景: 语音更正(如改口)、个性化内容生成、影片后期音频修订。
🗣 3. Voice Conversion – Dialect(方言变换)
功能说明: 将语音的方言或口音从一种转换成另一种,同时保留内容与语者特征。
示例:
原音:普通话(Mandarin)
目标:东北口音(Northeast)
文本一致,但语音表现出明显东北口音的音色特征。
应用场景: 方言配音、跨地域内容本地化、影视/教育音频适配。
🔊 4. Denoise(去噪)
功能说明: 在不破坏语音清晰度和自然度的前提下去除环境噪音(如风声、杂音、背景音乐等)。
示例:
原音:带噪音的英文句子
目标:去噪后的清晰语音
结果听起来如专业录音棚录制。
应用场景: 语音修复、播客剪辑、语音识别前处理。
项目地址:https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
GitHub:https://github.com/inclusionAI/Ming-UniAudio
模型下载:https://modelscope.cn/models/inclusionAI/Ming-UniAudio-16B-A3B