StepFun AI 发布LLM 级别的音频编辑模型： Step-Audio-EditX 拥有 情绪、语气、风格、副语言特征编辑能力

📰 正文

StepFun AI （阶跃科技）发布 Step-Audio-EditX 语音开源模型，这是世界上第一个 LLM 级别的音频编辑模型。

它不仅能合成语音，还能编辑声音的情绪、语气、风格，让生成的语音更自然、更有表现力。

一个基于大语言模型（LLM）架构的音频模型；

30亿参数（从130B压缩而来）

拥有情绪、语气、风格、副语言特征编辑能力；

支持零样本语音克隆与多轮可迭代编辑；

StepFun AI 表示，这个模型代表了一种全新的音频编辑范式：

不再从波形信号处理音频，而是像语言模型一样，用离散 token 表示语音，可通过自然语言指令完成情感、风格、语速等多维度的音频修改。

背景与定位

在过去两年中，语音生成（Text-to-Speech, TTS）模型出现了明显的技术分化趋势：

一类模型（如 VALL-E、CosyVoice）侧重语音“克隆”能力，即在零样本条件下复制特定音色和韵律。

另一类模型（如 FireRedTTS、Seed-TTS）强调合成质量和多语言适配。

然而，现有模型普遍存在一个瓶颈：

语音属性（情感、风格、语气、语速等）难以独立控制。

换言之，虽然模型能模仿某人的声音，但无法灵活调整“说话方式”或“情绪表达”。

StepFun 团队提出的 Step-Audio-EditX 正是针对这一限制的系统性解决方案。这是首个基于大型语言模型（LLM）架构的、开源的、支持多轮情感与风格可编辑语音生成的系统。

主要功能

Step-Audio-EditX 有四大核心功能：

零样本语音克隆（Zero-shot Voice Cloning）

只需几秒钟的语音样本，就能让模型模仿说话者的声音去朗读新内容。无需再训练，立即生成。

支持语言：普通话、英语、四川话、粤语；

无需额外训练；

能保持音色和语调的一致性。

可通过标签切换方言（如 [Cantonese] 表示粤语）。

Prompt Audio

Output Audio

Prompt Audio

Output Audio

情绪编辑（Emotion Editing）

可以改变声音的情绪表现，如：

Happy（开心）

Sad（悲伤）

Angry（生气）

Excited（激动）

Fearful（害怕）

Surprised（惊讶）

只需给出一个标签，AI 就能让声音表现出相应的情感色彩。

Source

Edit 1st

Edit 2nd

Edit 3rd

说话风格调整（Speaking Style Editing）

可让声音呈现不同人物风格或语气特征，例如：

Whisper（低语）

Child（儿童）

Older（年长）

Serious（严肃）

Gentle（温和）

Exaggerated（夸张）

适合用于角色配音或虚拟人物语音生成。

Source

Edit 1st

Edit 2nd

Edit 3rd

副语言特征控制（Paralinguistic Editing）

除了情绪和语气外，还能添加一些自然的人类声音特征：如呼吸声、笑声、叹气、犹豫音、惊叹音等。

例如：

[Laughter] 会让语音中带上笑声；

[Breathing] 添加自然呼吸声；

[Sigh] 加入轻微叹息。

这使生成的语音更接近真实人声。

Source

Paralinguistic Text 副语言文本

你说的这个计划听起来不错，我觉得可以试试 [Confirmation-en]，说不定真能成功呢。

Edit Output

5）Extension（扩展功能）

模型可无缝扩展至其他音频编辑任务：

系统架构

Step-Audio-EditX 的核心设计理念是：

“语音也可以“像文本一样被编辑”。”

统一LLM架构

Step-Audio-EditX 完全继承了文本大模型的对话式结构：

所有语音任务都被封装为“系统提示 + 用户指令”的对话形式；

无论是TTS、情感编辑还是语速调整，都可在统一框架下完成；

通过token化的音频序列输入，模型学习在token层面执行“编辑指令”。

这种统一语义接口极大降低了任务切换成本，也为后续RLHF对齐提供了统一格式。

整个系统由三个主要部分组成：

流程图：

输入：文本 + 参考语音 + 指令（如情绪/风格）
     ↓
Audio Tokenizer：提取声音特征
     ↓
Audio LLM：生成或编辑音频符号
     ↓
Decoder：输出最终语音

这种设计让模型能灵活地理解语音的“语义”和“情感”，在技术上实现了“语音级的大模型理解与控制”。

性能评估

根据 StepFun 团队在技术报告（arXiv:2511.03601）中披露的结果， Step-Audio-EditX 在多项指标上超越了闭源商用模型 Minimax 与 Doubao：

实验结果表明：

其在自然度、情感表达、音色一致性方面已接近甚至超越闭源商用系统。

情绪与风格控制能力达到业内领先水准。

技术架构兼具可解释性与可扩展性，为多模态语音生成研究提供了坚实基础。

兼容性与泛化能力

Step-Audio-EditX 还能改进其他闭源 TTS 系统的输出。包括：

GPT-4o mini TTS

ElevenLabs v2

Doubao Seed TTS 2.0

MiniMax Speech 2.6 HD

结果显示，仅一次 Step-Audio-EditX 编辑迭代即可显著提升这些系统的情感与风格表达精度。

项目地址：https://stepaudiollm.github.io/step-audio-editx/

论文：https://arxiv.org/pdf/2511.03601

GitHub：https://github.com/stepfun-ai/Step-Audio-EditX

在线体验：https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

来源：StepFun AI 发布LLM 级别的音频编辑模型： Step-Audio-EditX 拥有情绪、语气、风格、副语言特征编辑能力

📰 正文#

📰 正文