ACE-Step：音乐界的 Stable Diffusion 在 20 秒内生成 4 分钟完整音乐 支持 19种语言

📰 正文

ACE-Step 是一个面向音乐生成的“基础模型”（foundation model）项目。由 ACE Studio 与 StepFun 联合开发。

它的目标不是简单生成一首歌曲，而是提供一个通用、可扩展、可控的音乐生成系统架构，可广泛应用于创作、编曲、歌词生成、人声模拟、伴奏生成、说唱AI等领域。

通俗说，它试图成为“音乐界的Stable Diffusion”——即音乐版本的通用生成平台。

它可以：

读歌词 → 写旋律、唱出来；

读风格标签 → 自动编曲、生成伴奏；

修改已有歌曲的一小段歌词，而不影响旋律；

生成带风格的说唱、电子乐、人声、配器等；

模拟你“输入一句歌词，它帮你快速写歌”的流程。

📌 性能如何：在 A100 GPU 上，ACE-Step 可在 20 秒内生成 4 分钟音乐，比主流模型快 15 倍以上。

✅ 与现有方法对比：

ACE-Step 的核心创新是混合多种技术，解决这三者之间的矛盾：

使用扩散模型（diffusion） + 压缩自编码器（DCAE）快速合成音乐；

用轻量 Transformer 模块提高结构连贯性；

融合语义对齐模型 MERT 和 m-Hubert，使模型对“歌词与旋律”之间的关系理解更精准；

最终支持包括歌词修改、局部重绘、声音变化等在内的精细控制。

技术核心

ACE-Step 采用混合架构设计：

🔄 扩散生成器（Diffusion）：保证高质量音频输出

🧱 深度压缩自编码器（DCAE）：降低生成维度、加快速度

⚡ 线性 Transformer：捕捉长程结构，提升音乐连贯性

🧬 语义对齐模块（MERT + m-Hubert）：用于训练中对歌词/语义信息的对齐，生成结构更清晰

🎯 性能亮点：

在 A100 GPU 上 20 秒生成 4 分钟音乐，比传统方法快 15 倍以上；

在旋律、节奏、歌词结构方面保持更强的一致性。

主要功能与特色

🎶 核心能力：多模态、结构化、高质量音乐生成 1.

文本 → 音乐（Text-to-Music）输入短语、描述、歌词，自动生成风格一致的音乐段落。

歌词 → 人声（Lyric-to-Vocal）输入歌词，生成完整“AI唱歌”的人声输出，支持多语言、风格变化。

说唱生成（RapMachine）（即将发布）模拟说唱演绎，支持 AI freestyle、节奏对齐。

人声 → 伴奏（Singing-to-Accompaniment）给定一段清唱音频，自动匹配并生成合适的伴奏音乐。

乐器Stem生成（StemGen）针对指定乐器（如鼓、吉他、钢琴），生成与已有音轨协同的独立音轨。

🧩 可控性与创作工具：

🎚 变体生成：通过噪声调整生成多样版本

🎨 局部重构（repainting）：可只修改一段旋律或歌词

✏ 歌词编辑（flow-edit）：精准修改局部歌词，不影响旋律

🎛 音轨再组合：支持 remix、伴奏反推（singing2accompaniment）等功能

🌐支持的语言与风格

✅ 支持 19种语言（其中英语、中文、日语、韩语、法语等表现最佳）；

✅ 支持多风格：流行、民谣、爵士、电子、古典、摇滚等；

✅ 支持多种描述输入方式：简短标签、句子、故事性文本、使用场景等。

典型应用模块（LoRA 支持）

性能实测（生成速度）

说明：RTF越高，生成越快（例如27.27x意为1分钟音乐生成仅耗2.2秒）。

项目地址及更多演示：https://ace-step.github.io/

GitHub：https://github.com/ace-step/ACE-Step

在线演示：https://huggingface.co/spaces/ACE-Step/ACE-Step

来源：ACE-Step：音乐界的 Stable Diffusion 在 20 秒内生成 4 分钟完整音乐支持 19种语言

📰 正文#

📰 正文