NotaGen： 一个高质量古典乐谱音乐生成模型 具备“乐谱级”音乐生成能力

📰 正文

NotaGen 是一个高质量古典乐谱（就是那种写在五线谱上的音乐）的符号音乐生成模型，专注于符号音乐（Symbolic Music）创作，特别是古典音乐生成。

其核心创新是结合大语言模型（LLMs）训练范式，采用预训练（Pre-training）、微调（Fine-tuning）和强化学习（Reinforcement Learning）三步训练流程。

相比于现有的 MIDI 生成，NotaGen 更加注重乐谱的格式、声部编排和音乐性，适用于作曲辅助、自动编曲、音乐分析等任务。大幅提升 AI 生成音乐的结构性、风格可控性和音乐性。

📌 主要特点：

✅ 基于 GPT-2 的 Tunesformer 结构，分层生成音乐片段 ✅ 预训练 160 万首音乐，学习音乐风格与结构 ✅ 微调 8,948 首高质量古典音乐作品，涵盖 152 位作曲家 ✅ CLaMP-DPO 强化学习，优化音乐性与风格可控性 ✅ 支持“时代-作曲家-乐器”风格控制，可生成不同历史时期的特定风格音乐

💡 NotaGen 让 AI 能够创作完整、连贯、风格化的古典音乐作品！

NotaGen 解决了什么问题？

🎼 传统 AI 音乐生成的挑战

❌ 缺乏音乐结构性 → 早期 AI 音乐多是“拼凑”音符，旋律不连贯 ❌ 风格控制弱 → 不能根据不同时代、作曲家、乐器风格生成音乐 ❌ 依赖人工标注 → 传统 AI 需要大量人工标注音乐数据，难以扩展

💡 NotaGen 通过：

✅ 大规模 LLM 训练范式 → 让 AI 学习真实音乐风格，提升旋律连贯性 ✅ “时代-作曲家-乐器”控制 → 让 AI 生成特定风格的音乐 ✅ 强化学习 CLaMP-DPO → 让 AI 自主优化音乐性，无需人工标注

📌 最终，NotaGen 使 AI 生成的音乐更加优美、自然、风格匹配！

详细技术细节

采用 LLM 训练范式，提升音乐生成质量

三步训练流程： 1.

预训练（Pre-training）

训练数据：160 万首乐谱，涵盖不同作曲家、时期、乐器组合。

目标：学习基本的音乐结构，如旋律、和声、节奏模式等。

微调（Fine-tuning）

精选 8,948 首高质量古典乐曲，涵盖 152 位作曲家。

采用 “时代-作曲家-编配”条件提示，引导模型生成符合特定风格的音乐作品。

强化学习（Reinforcement Learning）

提出 CLaMP-DPO 算法：

通过 CLaMP 2 评分选择最符合音乐性的作品。

采用 DPO（Direct Preference Optimization）优化生成结果，使其更符合真实作品风格。

通过多轮迭代优化提高生成的音乐性。

具备“乐谱级”音乐生成能力

传统 MIDI 生成主要关注音符序列，而 NotaGen 直接生成乐谱（Sheet Music），强调：

多声部编排（Polyphonic Arrangement）：支持弦乐四重奏、钢琴独奏、管弦乐等多种编曲方式。

正确的音乐符号表达：生成的乐谱符合专业乐谱格式，可用于实际演奏和分析。

数据表示（Data Representation）

采用 ABC 记谱法（ABC Notation）

引入“交错表示法”（Interleaved ABC Notation）

使不同声部的内容在同一行显示，提高信息密度和可读性。

省略空白小节，减少无意义的信息，提高计算效率。

具备高度的音乐风格控制能力

支持按照“时代-作曲家-编配”条件生成特定风格的音乐

风格匹配能力强

训练数据中，每首音乐都带有 “时代（Baroque、Classical、Romantic）-作曲家-编配（键盘、管弦乐等）” 标签。

通过条件控制，生成特定风格的作品，如 “巴赫风格的管弦乐” 或 “肖邦风格的钢琴曲”。

强化学习提升风格一致性

CLaMP-DPO 通过自动打分机制筛选最优音乐样本，提高音乐风格匹配度。

经过三轮优化后，音乐风格匹配度提高至 94.6%（提升 16% 以上）。

超越传统 Transformer 训练方法，提升音乐结构完整性

传统 Transformer 训练方式的缺点

仅优化“下一个 Token 预测”，容易忽略整体音乐结构。

可能导致音乐“缺乏长距离依赖”，例如乐句重复、结构混乱等问题。

NotaGen 采用“乐谱片段（Bar-Stream Patching）”

不是简单的逐 Token 训练，而是将音乐划分为固定长度的片段（Bars），每个片段都作为独立的训练单元。

提高了音乐结构的一致性和连贯性，减少“短句拼接”导致的音乐性损失。

强化学习（Reinforcement Learning）进一步优化音乐性

提出 CLaMP-DPO 算法

传统 RLHF（人类反馈强化学习）依赖人工评分，成本高且效率低。

CLaMP-DPO 通过 AI 自动评分，消除了人工标注需求，提高优化效率。

CLaMP-DPO 的作用

评分标准（CLaMP 2 Score）

计算生成乐曲与高质量乐曲的相似度。

选择“最符合风格的作品”进行强化训练。

优化过程

经过三轮优化后，风格匹配度提高至 94.6%，音乐质量明显提升。

NotaGen 的优势

✅ 高质量的音乐生成

采用 LLM 训练范式，结合预训练 + 微调 + 强化学习，保证音乐质量。

✅ 风格可控

通过 “时代-作曲家-编配”条件，生成符合特定风格的音乐作品。

通过强化学习（CLaMP-DPO）优化风格匹配度。

✅ 结构完整

乐谱片段（Bar-Stream Patching）提升音乐结构连贯性，减少随机性。

✅ 无需人工标注

CLaMP-DPO 采用 AI 自动评分，无需人工干预，提高训练效率。

一些案例

Keyboard

Chamber

Orchestral

Art Song

Choral

Vocal-Orchestral

实验结果

✅ 音乐质量远超现有 AI 生成模型

• CLaMP-DPO 强化学习使音乐风格更精确，风格匹配度达 94.6%，超越 MuPT 和 MET。

• 生成音乐结构更完整（BAE 误差降低 79%），避免了 AI 生成音乐“缺乏连贯性”的问题。

✅ 接近专业人工作曲

• 在 92 名专业音乐评审中，41.7% 更喜欢 NotaGen 生成的音乐，接近人工作曲水平。

• 尽管人工作曲仍然领先，但 NotaGen 生成的音乐在“艺术性、结构完整性、和声处理”等方面表现优越。

✅ 风格可控，满足不同音乐需求

• 通过 “时代-作曲家-编配” 作为条件，生成符合特定风格的作品，实现高精准度风格控制。

✅ 强化学习优化显著

• 优化后 AI 生成音乐的投票率提升 10%-15%，表明 NotaGen 通过强化学习（CLaMP-DPO）显著提高音乐质量。

项目地址：https://electricalexis.github.io/notagen-demo/

论文：https://arxiv.org/pdf/2502.18008

GitHub：https://github.com/ElectricAlexis/NotaGen

📰 正文#

📰 正文