📰 正文

阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型:Step-Audio

Step-Audio 结合了语音理解与生成能力,提供了一种多模态的解决方案,能够有效支持多种语音交互场景。

该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。

这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的单一模型。该模型通过多模态训练,使得语音理解与生成可以无缝对接。

Step-Audio-Chat版本已经开源,支持高质量的对话生成。

Step-Audio通过其生成性语音数据引擎,消除了传统TTS(文本转语音)系统对人工语音数据收集的依赖。它能够生成高质量的语音数据,并通过其130B参数的模型训练出了资源高效的Step-Audio-TTS-3B模型,具备增强的指令跟随能力。

能够根据指令动态调整语音的方言、情感、唱歌和说唱等元素,提高语音交互的灵活性和智能化程度。

集成了工具调用和角色扮演能力,能够高效管理复杂的任务和对话。

StepEval-Audio-360评估基准:通过该评估基准,Step-Audio在人工评估中表现出色,尤其是在指令跟随能力方面。此外,在开源基准测试(如LLaMA Question)中,Step-Audio相比其他模型表现出平均9.3%的性能提升。

image

主要能力

语音克隆

支持多种语言对话(中文,英文,日语)

情绪控制与语调控制(开心,悲伤)

支持方言(粤语,四川话)

可控制语速及韵律风格

支持RAP和哼唱等

Step-Audio的主要功能

  1. 语音和文本统一理解与生成

什么是统一理解与生成? Step-Audio 能同时处理语音和文本,打破了传统语音系统需要多个不同模块(如语音识别、语音合成等)逐一处理的限制。模型不仅能识别语音、理解语义,还能生成流畅的语音和文本回答。

简单来说,它可以在一次处理过程中同时完成“听、理解、说”的工作,而且不同任务之间的切换非常自然、顺畅。

为什么重要? 这让语音和文本之间的转换变得更加顺畅,让机器在理解和表达上更加自然,就像人类一样能够同时“听懂”和“说出”信息。

  1. 语音克隆和生成

语音克隆 允许系统模拟和复刻某个人的语音。比如,你可以让系统模仿某个名人的声音来生成语音。

Step-Audio的优势 Step-Audio通过其生成式语音数据引擎,能以更低的成本进行高质量的语音克隆。它通过“蒸馏”技术,将模型简化为一个更轻量的版本 Step-Audio-TTS-3B,并且这个模型也被开源,意味着任何人都可以使用和改进它。

  1. 动态语音控制

动态控制是什么? 传统的语音系统通常只生成标准的语音,没有太多变化。Step-Audio的动态控制系统则能根据用户的需求,灵活调整语音的各个特征。 Step-Audio支持对语音生成的细致调控,能够根据指令动态调整语音的情感、语速、方言等。它可以处理如愤怒、快乐、悲伤等情感,也支持不同方言(如粤语、四川话等)以及不同语音风格(如演唱、RAP等)。

方言:可以模拟不同地区的口音或方言。

情感:可以让语音听起来更加愉快、悲伤或生气。

风格:可以让语音听起来像唱歌、说唱(Rap)等。

为什么有用? 这样的控制让语音交互更加个性化,能够适应各种不同的情境,比如客服系统、虚拟助手或娱乐应用中,根据不同用户的需求来调整语音风格和情感色彩。

  1. 增强的智能处理能力

除了语音理解和生成,Step-Audio还支持工具调用和角色扮演等能力。它能够理解指令,并且在执行任务时加入角色扮演和工具调用功能。例如,它不仅能回答问题,还能完成一些复杂的指令,比如搜索信息、执行计算任务或模拟某个角色与用户互动。

为什么有用? 这使得Step-Audio能够处理更加复杂和多样化的任务,提升了与机器的互动体验。例如,它不仅是一个语音助手,还能作为一个“智能管家”完成更为复杂的任务。

  1. 实时推理与交互:

为了实现流畅的实时语音交互,Step-Audio设计了高效的推理管道,支持低延迟的交互体验。它可以在语音输入时快速生成响应,优化了响应延迟并提高了用户体验。

例如,当你说话时,Step-Audio 会立刻处理并生成回答,而不会有明显的等待时间。它还能在你稍作停顿时预先准备好回答,减少了对话中的空白和延迟。

模型架构与技术方法

image

采用了双代码本分词器,分别处理语言学和语义特征,以提高语音理解和生成的效率。

通过优化的推理管道,支持实时的语音交互,能够有效降低延迟。

模型架构

Step-Audio 的架构主要包括三个核心组件: 1.

双代码本分词器(Dual-Codebook Tokenizer):

传统的语音处理方法通常将语音信号转换为文本或是音频特征,分别进行处理。Step-Audio 提出了双代码本分词器的概念,将语音信号同时转化为两类不同的 token:一种是语言学 token,另一种是语义 token。

语言学 token:捕捉语音的音素、语法等结构化语言特征。

语义 token:捕捉语音的语义信息和大致的声学特征。

这两种 token 通过 2:3 的时间交织比例进行整合,这样可以确保生成的语音既能保证语义的连贯性,也能保证音质的自然性。

130B 参数的统一多模态语言模型(Unified 130B-parameter Model):

Step-Audio 采用了一个统一的多模态语言模型,结合了 语音识别(ASR)、语言理解(LLM) 和 文本转语音(TTS) 等功能,能够在一个模型中同时处理语音信号和文本。

该模型通过 持续的音频上下文训练(Audio-Contextualized Continual Pretraining),将语音与文本的处理整合,使得模型可以更好地理解语音输入,并生成相应的语音输出。

语音解码器(Speech Decoder):

语音解码器的任务是将处理后的文本或音频 token 转换成高质量的语音波形。Step-Audio 的语音解码器采用了 流匹配模型(Flow Matching Model) 和 神经声码器(Neural Vocoder),这使得生成的语音不仅具有较好的清晰度,还能保持语音的自然音质。

该解码器还结合了一个 三十亿参数的语言模型,确保模型在生成语音时能够精确控制语音的音调、速度等特性。

技术方法

生成性语音数据引擎(Generative Data Engine):

传统的语音合成系统需要大量的人工语音数据(如录音和标注数据),而 Step-Audio 通过 生成性数据引擎 来自动生成语音数据。该方法可以减少对人工录音的依赖,并通过生成的语音数据训练模型,从而达到更高效的数据生成和模型训练效果。

生成的语音数据不仅可以用于基础的语音合成,还能支持更细致的情感控制、方言切换等复杂语音生成任务。

实时推理与异步工具调用(Real-time Inference and Asynchronous Tool Calling):

为了实现实时语音交互,Step-Audio 设计了一个优化的推理管道,使得系统能够在用户输入语音的同时实时生成语音回答。它支持 推测性响应生成(Speculative Response Generation),即在用户稍作停顿时,系统就预先生成一个可能的回答,从而减少交互中的延迟。

image

Step-Audio 还支持 异步工具调用,即在生成语音的同时,可以在后台执行外部工具调用(如查询天气、获取实时数据等),从而使得系统可以在不影响语音生成的情况下同时完成复杂任务。

image

强化学习与人类反馈(RLHF):

Step-Audio 使用 强化学习(RL) 和 人类反馈(Human Feedback) 来进一步优化其对话生成能力。通过人工评估生成的语音和文本回应,Step-Audio 能够在生成任务中逐步改进其性能,尤其是在情感控制、语言风格、语速等方面的精细调控。

PPO(Proximal Policy Optimization) 算法被用于奖励模型训练,确保模型根据人类的反馈不断提升其理解与生成的能力。

image

多模态训练与数据融合(Multimodal Training and Data Fusion):

Step-Audio 的多模态训练融合了 音频、文本 和 图像 数据,通过对这些数据的联合训练,使得模型不仅能够处理语音,还能理解和生成基于图像的语音对话(如图片描述生成)。

数据处理过程中的 数据分解处理(Disaggregated Data Processing) 和 模型分配优化(Disaggregated Model Placement) 确保了训练过程中数据和计算的高效性。

实际应用和优势

通过这些技术,Step-Audio 实现了以下几项优势:

低延迟的实时语音生成:通过优化的推理和数据处理流程,Step-Audio 能够在语音输入和输出之间保持低延迟,提供流畅的语音交互体验。

高精度的语音控制:它不仅可以精确调整语音的情感、语速和方言,还能够根据复杂的指令生成符合用户要求的语音。

支持复杂任务:例如,通过工具调用机制,Step-Audio 可以在对话中获取实时数据(如天气、新闻等),并用语音报告给用户。

评估结果

Step-Audio 在多个基准测试中表现出色,尤其是在开放域问答、复杂指令任务和语音合成(TTS)方面取得了显著的进展。以下是该系统的评估结果,重点展示了其在不同任务中的优势:

  1. 开放域问答与复杂任务评估

Step-Audio 在多个标准问答和指令跟随任务的评估中,比现有的开源模型表现得更好。它在 LLaMA Question、TrivialQA 和 ComplexBench 等任务上显示出了 9.3% 的平均性能提升。特别是在 复杂指令跟随(例如多个步骤的任务执行)上,Step-Audio 显示出超强的能力,能够精确理解并执行复杂的语音命令。

image

StepEval-Audio-360 评估框架:

该框架通过 9 个维度对语音交互系统进行评估,包括逻辑推理、创造力、语言能力、理解能力等。Step-Audio 在以下几个维度表现特别突出:

响应质量:比现有模型提高了 19.2%。

响应相关性:比现有模型提高了 23.7%。

事实准确性:比现有模型提高了 43.2%。

在 指令跟随能力(Instruction Following)和 语音生成控制(如情感理解、语速控制、RAP演唱等)方面,Step-Audio 比其他开源模型提高了 29.8% 和 27.1%,显示出其在复杂语音交互场景中的优势。

  1. 语音识别与语音合成(TTS)评估

Step-Audio 在 自动语音识别(ASR) 和 文本转语音(TTS) 任务中也取得了显著成绩:

ASR(自动语音识别):

在与其他开源语音模型(如 Whisper Large-v3 和 Qwen2-Audio)的对比中,Step-Audio 在 中文 和 英文 的字符错误率(CER)上表现出色。例如,在 Aishell-1 数据集上的 CER 结果为 1.95%,远低于其他模型。Step-Audio 在 Librispeech test-clean 数据集上也表现突出,CER 达到 2.36%,与其他领先模型不相上下。

TTS(文本转语音):

在 SEED TTS 测试集的评估中,Step-Audio 的 Step-Audio-TTS-3B 模型在 CER(字符错误率) 和 WER(词错误率) 上都表现出色。例如,它在中文和英文的 CER 分别为 1.17% 和 1.31%,优于其他开源模型,如 CosyVoice 和 FireRedTTS。而且,它在音频质量和说话人相似度方面也保持了较高水平。

image

  1. 语音对话和指令跟随

在 语音对话任务中,Step-Audio-Chat 在 实时对话交互 中表现尤为突出,特别是在生成符合情感、语速和其他细节要求的语音时。

image

例如,在 指令跟随能力方面,Step-Audio-Chat 的表现优于其他模型:

语言指令:Step-Audio-Chat 的 MOS(Mean Opinion Score)为 3.8,而 GLM-4-Voice 为 1.9,显示出其对语言指令的理解和生成能力。

角色扮演:Step-Audio-Chat 得到了 4.2 分,显著优于 GLM-4-Voice 的 3.8。

情感和语速控制:Step-Audio-Chat 在这方面的表现也超越了大部分现有的开源模型,特别是在情感表达和语速调整方面,显示出更高的灵活性和控制能力。

  1. 工具调用与外部知识集成

Step-Audio 的 工具调用机制在实际应用中显现出巨大的优势。例如,它能够在与用户对话时同时调用外部工具(如查询天气、获取实时新闻数据等),并结合这些信息生成自然的语音回答。与传统模型需要依赖外部插件或手动处理数据不同,Step-Audio 实现了 语音生成与工具调用的异步并行处理,显著提升了交互流畅性和实时性。

  1. 人类评估结果

通过 StepEval-Audio-360 的多维度评估,Step-Audio 在 语音交互 的 自然性、任务完成度 和 准确性 等方面都得到了专家的高度评价。尤其是在复杂任务处理和情感表达的细致控制上,Step-Audio 展现了领先的优势。

GitHub:https://github.com/stepfun-ai/Step-Audio

论文:https://arxiv.org/pdf/2502.11946


来源:Step-Audio:阶跃星辰开源了一个130B 语音-文本的多模态模型 集成了工具调用和角色扮演能力