Step-Audio：阶跃星辰开源了一个130B 语音-文本的多模态模型 集成了工具调用和角色扮演能力

📰 正文

阶跃星辰开源了一个130B 语音-文本多模态统一理解与生成模型：Step-Audio

Step-Audio 结合了语音理解与生成能力，提供了一种多模态的解决方案，能够有效支持多种语音交互场景。

该模型旨在解决现有开源语音模型在语音数据收集、动态控制和智能化方面的局限性。

这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的单一模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。

Step-Audio-Chat版本已经开源，支持高质量的对话生成。

Step-Audio通过其生成性语音数据引擎，消除了传统TTS（文本转语音）系统对人工语音数据收集的依赖。它能够生成高质量的语音数据，并通过其130B参数的模型训练出了资源高效的Step-Audio-TTS-3B模型，具备增强的指令跟随能力。

能够根据指令动态调整语音的方言、情感、唱歌和说唱等元素，提高语音交互的灵活性和智能化程度。

集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。

StepEval-Audio-360评估基准：通过该评估基准，Step-Audio在人工评估中表现出色，尤其是在指令跟随能力方面。此外，在开源基准测试（如LLaMA Question）中，Step-Audio相比其他模型表现出平均9.3%的性能提升。

主要能力

语音克隆

支持多种语言对话（中文，英文，日语）

情绪控制与语调控制（开心，悲伤）

支持方言（粤语，四川话）

可控制语速及韵律风格

支持RAP和哼唱等

Step-Audio的主要功能

语音和文本统一理解与生成

什么是统一理解与生成？ Step-Audio 能同时处理语音和文本，打破了传统语音系统需要多个不同模块（如语音识别、语音合成等）逐一处理的限制。模型不仅能识别语音、理解语义，还能生成流畅的语音和文本回答。

简单来说，它可以在一次处理过程中同时完成“听、理解、说”的工作，而且不同任务之间的切换非常自然、顺畅。

为什么重要？这让语音和文本之间的转换变得更加顺畅，让机器在理解和表达上更加自然，就像人类一样能够同时“听懂”和“说出”信息。

语音克隆和生成

语音克隆允许系统模拟和复刻某个人的语音。比如，你可以让系统模仿某个名人的声音来生成语音。

Step-Audio的优势 Step-Audio通过其生成式语音数据引擎，能以更低的成本进行高质量的语音克隆。它通过“蒸馏”技术，将模型简化为一个更轻量的版本 Step-Audio-TTS-3B，并且这个模型也被开源，意味着任何人都可以使用和改进它。

动态语音控制

动态控制是什么？传统的语音系统通常只生成标准的语音，没有太多变化。Step-Audio的动态控制系统则能根据用户的需求，灵活调整语音的各个特征。 Step-Audio支持对语音生成的细致调控，能够根据指令动态调整语音的情感、语速、方言等。它可以处理如愤怒、快乐、悲伤等情感，也支持不同方言（如粤语、四川话等）以及不同语音风格（如演唱、RAP等）。

方言：可以模拟不同地区的口音或方言。

情感：可以让语音听起来更加愉快、悲伤或生气。

风格：可以让语音听起来像唱歌、说唱（Rap）等。

为什么有用？这样的控制让语音交互更加个性化，能够适应各种不同的情境，比如客服系统、虚拟助手或娱乐应用中，根据不同用户的需求来调整语音风格和情感色彩。

增强的智能处理能力

除了语音理解和生成，Step-Audio还支持工具调用和角色扮演等能力。它能够理解指令，并且在执行任务时加入角色扮演和工具调用功能。例如，它不仅能回答问题，还能完成一些复杂的指令，比如搜索信息、执行计算任务或模拟某个角色与用户互动。

为什么有用？这使得Step-Audio能够处理更加复杂和多样化的任务，提升了与机器的互动体验。例如，它不仅是一个语音助手，还能作为一个“智能管家”完成更为复杂的任务。

实时推理与交互：

为了实现流畅的实时语音交互，Step-Audio设计了高效的推理管道，支持低延迟的交互体验。它可以在语音输入时快速生成响应，优化了响应延迟并提高了用户体验。

例如，当你说话时，Step-Audio 会立刻处理并生成回答，而不会有明显的等待时间。它还能在你稍作停顿时预先准备好回答，减少了对话中的空白和延迟。

模型架构与技术方法

采用了双代码本分词器，分别处理语言学和语义特征，以提高语音理解和生成的效率。

通过优化的推理管道，支持实时的语音交互，能够有效降低延迟。

模型架构

Step-Audio 的架构主要包括三个核心组件： 1.

双代码本分词器（Dual-Codebook Tokenizer）：

传统的语音处理方法通常将语音信号转换为文本或是音频特征，分别进行处理。Step-Audio 提出了双代码本分词器的概念，将语音信号同时转化为两类不同的 token：一种是语言学 token，另一种是语义 token。

语言学 token：捕捉语音的音素、语法等结构化语言特征。

语义 token：捕捉语音的语义信息和大致的声学特征。

这两种 token 通过 2:3 的时间交织比例进行整合，这样可以确保生成的语音既能保证语义的连贯性，也能保证音质的自然性。

130B 参数的统一多模态语言模型（Unified 130B-parameter Model）：

Step-Audio 采用了一个统一的多模态语言模型，结合了语音识别（ASR）、语言理解（LLM）和文本转语音（TTS）等功能，能够在一个模型中同时处理语音信号和文本。

该模型通过持续的音频上下文训练（Audio-Contextualized Continual Pretraining），将语音与文本的处理整合，使得模型可以更好地理解语音输入，并生成相应的语音输出。

语音解码器（Speech Decoder）：

语音解码器的任务是将处理后的文本或音频 token 转换成高质量的语音波形。Step-Audio 的语音解码器采用了流匹配模型（Flow Matching Model）和神经声码器（Neural Vocoder），这使得生成的语音不仅具有较好的清晰度，还能保持语音的自然音质。

该解码器还结合了一个三十亿参数的语言模型，确保模型在生成语音时能够精确控制语音的音调、速度等特性。

技术方法

生成性语音数据引擎（Generative Data Engine）：

传统的语音合成系统需要大量的人工语音数据（如录音和标注数据），而 Step-Audio 通过生成性数据引擎来自动生成语音数据。该方法可以减少对人工录音的依赖，并通过生成的语音数据训练模型，从而达到更高效的数据生成和模型训练效果。

生成的语音数据不仅可以用于基础的语音合成，还能支持更细致的情感控制、方言切换等复杂语音生成任务。

实时推理与异步工具调用（Real-time Inference and Asynchronous Tool Calling）：

为了实现实时语音交互，Step-Audio 设计了一个优化的推理管道，使得系统能够在用户输入语音的同时实时生成语音回答。它支持推测性响应生成（Speculative Response Generation），即在用户稍作停顿时，系统就预先生成一个可能的回答，从而减少交互中的延迟。

Step-Audio 还支持异步工具调用，即在生成语音的同时，可以在后台执行外部工具调用（如查询天气、获取实时数据等），从而使得系统可以在不影响语音生成的情况下同时完成复杂任务。

强化学习与人类反馈（RLHF）：

Step-Audio 使用强化学习（RL）和人类反馈（Human Feedback）来进一步优化其对话生成能力。通过人工评估生成的语音和文本回应，Step-Audio 能够在生成任务中逐步改进其性能，尤其是在情感控制、语言风格、语速等方面的精细调控。

PPO（Proximal Policy Optimization）算法被用于奖励模型训练，确保模型根据人类的反馈不断提升其理解与生成的能力。

多模态训练与数据融合（Multimodal Training and Data Fusion）：

Step-Audio 的多模态训练融合了音频、文本和图像数据，通过对这些数据的联合训练，使得模型不仅能够处理语音，还能理解和生成基于图像的语音对话（如图片描述生成）。

数据处理过程中的数据分解处理（Disaggregated Data Processing）和模型分配优化（Disaggregated Model Placement）确保了训练过程中数据和计算的高效性。

实际应用和优势

通过这些技术，Step-Audio 实现了以下几项优势：

低延迟的实时语音生成：通过优化的推理和数据处理流程，Step-Audio 能够在语音输入和输出之间保持低延迟，提供流畅的语音交互体验。

高精度的语音控制：它不仅可以精确调整语音的情感、语速和方言，还能够根据复杂的指令生成符合用户要求的语音。

支持复杂任务：例如，通过工具调用机制，Step-Audio 可以在对话中获取实时数据（如天气、新闻等），并用语音报告给用户。

评估结果

Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。以下是该系统的评估结果，重点展示了其在不同任务中的优势：

开放域问答与复杂任务评估

Step-Audio 在多个标准问答和指令跟随任务的评估中，比现有的开源模型表现得更好。它在 LLaMA Question、TrivialQA 和 ComplexBench 等任务上显示出了 9.3% 的平均性能提升。特别是在复杂指令跟随（例如多个步骤的任务执行）上，Step-Audio 显示出超强的能力，能够精确理解并执行复杂的语音命令。

StepEval-Audio-360 评估框架：

该框架通过 9 个维度对语音交互系统进行评估，包括逻辑推理、创造力、语言能力、理解能力等。Step-Audio 在以下几个维度表现特别突出：

响应质量：比现有模型提高了 19.2%。

响应相关性：比现有模型提高了 23.7%。

事实准确性：比现有模型提高了 43.2%。

在指令跟随能力（Instruction Following）和语音生成控制（如情感理解、语速控制、RAP演唱等）方面，Step-Audio 比其他开源模型提高了 29.8% 和 27.1%，显示出其在复杂语音交互场景中的优势。

语音识别与语音合成（TTS）评估

Step-Audio 在自动语音识别（ASR）和文本转语音（TTS）任务中也取得了显著成绩：

ASR（自动语音识别）：

在与其他开源语音模型（如 Whisper Large-v3 和 Qwen2-Audio）的对比中，Step-Audio 在中文和英文的字符错误率（CER）上表现出色。例如，在 Aishell-1 数据集上的 CER 结果为 1.95%，远低于其他模型。Step-Audio 在 Librispeech test-clean 数据集上也表现突出，CER 达到 2.36%，与其他领先模型不相上下。

TTS（文本转语音）：

在 SEED TTS 测试集的评估中，Step-Audio 的 Step-Audio-TTS-3B 模型在 CER（字符错误率）和 WER（词错误率）上都表现出色。例如，它在中文和英文的 CER 分别为 1.17% 和 1.31%，优于其他开源模型，如 CosyVoice 和 FireRedTTS。而且，它在音频质量和说话人相似度方面也保持了较高水平。

语音对话和指令跟随

在语音对话任务中，Step-Audio-Chat 在实时对话交互中表现尤为突出，特别是在生成符合情感、语速和其他细节要求的语音时。

例如，在指令跟随能力方面，Step-Audio-Chat 的表现优于其他模型：

语言指令：Step-Audio-Chat 的 MOS（Mean Opinion Score）为 3.8，而 GLM-4-Voice 为 1.9，显示出其对语言指令的理解和生成能力。

角色扮演：Step-Audio-Chat 得到了 4.2 分，显著优于 GLM-4-Voice 的 3.8。

情感和语速控制：Step-Audio-Chat 在这方面的表现也超越了大部分现有的开源模型，特别是在情感表达和语速调整方面，显示出更高的灵活性和控制能力。

工具调用与外部知识集成

Step-Audio 的工具调用机制在实际应用中显现出巨大的优势。例如，它能够在与用户对话时同时调用外部工具（如查询天气、获取实时新闻数据等），并结合这些信息生成自然的语音回答。与传统模型需要依赖外部插件或手动处理数据不同，Step-Audio 实现了语音生成与工具调用的异步并行处理，显著提升了交互流畅性和实时性。

人类评估结果

通过 StepEval-Audio-360 的多维度评估，Step-Audio 在语音交互的自然性、任务完成度和准确性等方面都得到了专家的高度评价。尤其是在复杂任务处理和情感表达的细致控制上，Step-Audio 展现了领先的优势。

GitHub：https://github.com/stepfun-ai/Step-Audio

论文：https://arxiv.org/pdf/2502.11946

来源：Step-Audio：阶跃星辰开源了一个130B 语音-文本的多模态模型集成了工具调用和角色扮演能力

📰 正文#

📰 正文