📰 正文

Ming-UniAudio 是一款由蚂蚁集团旗下 Inclusion AI 团队 开发的 统一语音语言模型(Speech Large Language Model, Speech LLM)。 它的目标是实现一个能够 理解、生成、以及编辑语音的统一系统——这意味着模型不仅能“听懂”和“说话”,还可以“修改语音内容”,无论是在语义层面(如文字替换)还是声学层面(如音色、情绪、语速变化)。

传统语音模型通常有两个缺陷: 1.

理解与生成分离:语音识别模型只能听懂(ASR),而语音合成模型只能说(TTS),两者互不兼容。

离散表示损失:大部分模型使用离散语音token,导致细节丢失、音质下降。

Ming-UniAudio 的核心创新在于:

✅ 使用 连续表示(Continuous Representation) 作为统一语音表示方式; ✅ 在同一个模型中实现了 语义理解、语音生成和自由编辑 的全流程。

它能做什么?

听懂语音(中英文+方言)

生成自然流畅的语音

直接“编辑”语音,比如:

把语音里的“妈妈”改成“爸爸”

让声音变成四川话或东北话

改变语速、音调或音量

加入背景音乐或情绪(快乐、平静等)

技术核心与创新点

1️⃣ MingTok-Audio:统一连续语音Tokenizer

传统语音模型将声音切割成离散片段(如音素token),这样虽然计算方便,但会导致音质下降。

MingTok-Audio 提出一种新的 连续音频tokenizer,可将语音编码为连续向量,不再离散化,从而在保留声学细节的同时,也便于生成和编辑任务共享同一种表示形式。

简而言之:MingTok-Audio 是整个系统的“桥梁”——它将声音转化成一种模型可理解且可还原的“通用语言”。

image


2️⃣ Ming-UniAudio:统一语音语言模型

Ming-UniAudio 是第一个基于连续表示的 语音语言模型(Speech LLM)

实现了三个核心功能:

image

该模型可以在接收到自然语言指令后,直接对语音内容进行修改,例如:

“把‘妈妈’改成‘爸爸’”;

“让这句话变成四川口音”;

“把说话语速调慢到0.7倍”;

“在这段语音后面加轻快的背景音乐”;

“让这句话听起来更开心一些”。

这种 自由形式(Free-form)语音编辑 在此前的语音模型中几乎不存在,而图像领域的多轮编辑(如在一张图片上多次编辑局部细节)已经被广泛验证。Ming-UniAudio 将这一能力引入语音领域。


3️⃣ Ming-UniAudio-Edit:自由语音编辑系统

基于统一语音表示,模型可以执行以下编辑任务:

image

这些操作全部通过自然语言指令完成,无需语音工程技能,体现了“语音编辑的自然语言化”。

4️⃣ Ming-Freeform-Audio-Edit-Benchmark:首个语音编辑基准

团队提出了一个公开基准,用于评估语音编辑模型的性能。 该基准测试模型在语义一致性(是否听懂并准确修改)与声学自然性(编辑后是否自然流畅)方面的表现。 这将有助于推动未来语音编辑领域的标准化评估。


系统能力

(1)语音理解能力

中英文语音识别:支持普通话、英语混合语音。

方言识别:如粤语、上海话、闽南语、川渝方言等。

语境识别(Context ASR):能结合上下文理解语音含义。例如:

银行业务语音(提及Zelle、ACH、FDIC等)

酒店与会员体系对话

汽车行业术语识别(如LED矩阵灯、MBUX屏幕)

(2)语音生成与合成

语音克隆:复制输入声音的音色和语气风格来生成新句子。

多语言合成:跨语言TTS,可在英语输入的风格下生成中文语音,或反之。

跨模态生成:输入一段语音 + 一段文字提示 → 输出新的语音版本。

(3)音频编辑演示

网页上提供多类语音编辑的演示视频,包括:

插入、替换、删除文字的语音结果;

调节语速、音高、音量;

加入背景声;

将语气变成“愉快”或“平静”等。

示例说明

🎯 1. Context Edit – Insert(语音插入)

功能说明: 在原始语音的指定位置插入新的词语或短语,并保持语音的自然连贯性与音色一致。

例子:

指令(Instruction):在“好”之前插入“哇”

模型会在不破坏整体节奏的情况下,将“哇”自然地插入句中,就像重新录制一样。

应用场景: 修补录音错误、为视频添加强调语气、微调语音脚本而无需重录。


🌀 2. Context Edit – Substitution(语音替换)

功能说明: 在语音中替换特定词汇(如人名、地名或其他内容),同时保持音色、语调、环境声一致。

示例:

原音(Source):我想对于妈妈来说……

目标(Target):我想对于爸爸来说…… 👉 模型自动将“妈妈”替换为“爸爸”,听起来像原声本人重新说了一遍。

应用场景: 语音更正(如改口)、个性化内容生成、影片后期音频修订。


🗣 3. Voice Conversion – Dialect(方言变换)

功能说明: 将语音的方言或口音从一种转换成另一种,同时保留内容与语者特征。

示例:

原音:普通话(Mandarin)

目标:东北口音(Northeast)

文本一致,但语音表现出明显东北口音的音色特征。

应用场景: 方言配音、跨地域内容本地化、影视/教育音频适配。


🔊 4. Denoise(去噪)

功能说明: 在不破坏语音清晰度和自然度的前提下去除环境噪音(如风声、杂音、背景音乐等)。

示例:

原音:带噪音的英文句子

目标:去噪后的清晰语音

结果听起来如专业录音棚录制。

应用场景: 语音修复、播客剪辑、语音识别前处理。

项目地址:https://xqacmer.github.io/Ming-Unitok-Audio.github.io/

GitHub:https://github.com/inclusionAI/Ming-UniAudio

模型下载:https://modelscope.cn/models/inclusionAI/Ming-UniAudio-16B-A3B


来源:Ming-UniAudio:能够理解、生成、以及编辑语音的语音模型 可自然语言指令直接对语音内容进行修改