📰 正文

NotaGen 是一个高质量古典乐谱(就是那种写在五线谱上的音乐)的符号音乐生成模型,专注于符号音乐(Symbolic Music)创作,特别是古典音乐生成。

其核心创新是结合大语言模型(LLMs)训练范式,采用 预训练(Pre-training)、微调(Fine-tuning)和强化学习(Reinforcement Learning) 三步训练流程。

相比于现有的 MIDI 生成,NotaGen 更加注重乐谱的格式、声部编排和音乐性,适用于作曲辅助、自动编曲、音乐分析等任务。大幅提升 AI 生成音乐的结构性、风格可控性和音乐性。

📌 主要特点:

✅ 基于 GPT-2 的 Tunesformer 结构,分层生成音乐片段 ✅ 预训练 160 万首音乐,学习音乐风格与结构 ✅ 微调 8,948 首高质量古典音乐作品,涵盖 152 位作曲家 ✅ CLaMP-DPO 强化学习,优化音乐性与风格可控性 ✅ 支持“时代-作曲家-乐器”风格控制,可生成不同历史时期的特定风格音乐

💡 NotaGen 让 AI 能够创作完整、连贯、风格化的古典音乐作品!

NotaGen 解决了什么问题?

🎼 传统 AI 音乐生成的挑战

❌ 缺乏音乐结构性 → 早期 AI 音乐多是“拼凑”音符,旋律不连贯 ❌ 风格控制弱 → 不能根据不同时代、作曲家、乐器风格生成音乐 ❌ 依赖人工标注 → 传统 AI 需要大量人工标注音乐数据,难以扩展

image

💡 NotaGen 通过:

✅ 大规模 LLM 训练范式 → 让 AI 学习真实音乐风格,提升旋律连贯性 ✅ “时代-作曲家-乐器”控制 → 让 AI 生成特定风格的音乐 ✅ 强化学习 CLaMP-DPO → 让 AI 自主优化音乐性,无需人工标注

📌 最终,NotaGen 使 AI 生成的音乐更加优美、自然、风格匹配!


详细技术细节

  1. 采用 LLM 训练范式,提升音乐生成质量

三步训练流程: 1.

预训练(Pre-training)

训练数据:160 万首乐谱,涵盖不同作曲家、时期、乐器组合。

目标:学习基本的音乐结构,如旋律、和声、节奏模式等。

微调(Fine-tuning)

精选 8,948 首高质量古典乐曲,涵盖 152 位作曲家。

采用 “时代-作曲家-编配”条件提示,引导模型生成符合特定风格的音乐作品。

强化学习(Reinforcement Learning)

提出 CLaMP-DPO 算法:

通过 CLaMP 2 评分 选择最符合音乐性的作品。

采用 DPO(Direct Preference Optimization) 优化生成结果,使其更符合真实作品风格。

通过 多轮迭代优化 提高生成的音乐性。

image


  1. 具备“乐谱级”音乐生成能力

传统 MIDI 生成 主要关注 音符序列,而 NotaGen 直接生成乐谱(Sheet Music),强调:

多声部编排(Polyphonic Arrangement):支持 弦乐四重奏、钢琴独奏、管弦乐等多种编曲方式。

正确的音乐符号表达:生成的乐谱符合 专业乐谱格式,可用于实际演奏和分析。

数据表示(Data Representation)

采用 ABC 记谱法(ABC Notation)

引入“交错表示法”(Interleaved ABC Notation)

使不同声部的内容在同一行显示,提高信息密度和可读性。

省略空白小节,减少无意义的信息,提高计算效率。

image


  1. 具备高度的音乐风格控制能力

支持按照“时代-作曲家-编配”条件生成特定风格的音乐

风格匹配能力强

训练数据中,每首音乐都带有 “时代(Baroque、Classical、Romantic)-作曲家-编配(键盘、管弦乐等)” 标签。

通过 条件控制,生成特定风格的作品,如 “巴赫风格的管弦乐” 或 “肖邦风格的钢琴曲”。

强化学习提升风格一致性

CLaMP-DPO 通过自动打分机制筛选最优音乐样本,提高音乐风格匹配度。

经过三轮优化后,音乐风格匹配度提高至 94.6%(提升 16% 以上)。


  1. 超越传统 Transformer 训练方法,提升音乐结构完整性

传统 Transformer 训练方式的缺点

仅优化“下一个 Token 预测”,容易忽略整体音乐结构。

可能导致音乐“缺乏长距离依赖”,例如乐句重复、结构混乱等问题。

NotaGen 采用“乐谱片段(Bar-Stream Patching)”

不是简单的逐 Token 训练,而是将音乐划分为固定长度的片段(Bars),每个片段都作为独立的训练单元。

提高了音乐结构的一致性和连贯性,减少“短句拼接”导致的音乐性损失。


  1. 强化学习(Reinforcement Learning)进一步优化音乐性

提出 CLaMP-DPO 算法

传统 RLHF(人类反馈强化学习) 依赖人工评分,成本高且效率低。

CLaMP-DPO 通过 AI 自动评分,消除了人工标注需求,提高优化效率。

CLaMP-DPO 的作用

评分标准(CLaMP 2 Score)

计算生成乐曲与高质量乐曲的 相似度。

选择“最符合风格的作品”进行强化训练。

优化过程

经过三轮优化后,风格匹配度提高至 94.6%,音乐质量明显提升。


NotaGen 的优势

✅ 高质量的音乐生成

采用 LLM 训练范式,结合 预训练 + 微调 + 强化学习,保证音乐质量。

✅ 风格可控

通过 “时代-作曲家-编配”条件,生成符合特定风格的音乐作品。

通过 强化学习(CLaMP-DPO)优化风格匹配度。

✅ 结构完整

乐谱片段(Bar-Stream Patching) 提升音乐结构连贯性,减少随机性。

✅ 无需人工标注

CLaMP-DPO 采用 AI 自动评分,无需人工干预,提高训练效率。


一些案例

Keyboard 

Chamber

Orchestral 

Art Song 

Choral 

Vocal-Orchestral 

实验结果

✅ 音乐质量远超现有 AI 生成模型

• CLaMP-DPO 强化学习使音乐风格更精确,风格匹配度达 94.6%,超越 MuPT 和 MET。

• 生成音乐结构更完整(BAE 误差降低 79%),避免了 AI 生成音乐“缺乏连贯性”的问题。

✅ 接近专业人工作曲

• 在 92 名专业音乐评审中,41.7% 更喜欢 NotaGen 生成的音乐,接近人工作曲水平。

• 尽管人工作曲仍然领先,但 NotaGen 生成的音乐在“艺术性、结构完整性、和声处理”等方面表现优越。

✅ 风格可控,满足不同音乐需求

• 通过 “时代-作曲家-编配” 作为条件,生成符合特定风格的作品,实现 高精准度风格控制。

✅ 强化学习优化显著

• 优化后 AI 生成音乐的投票率提升 10%-15%,表明 NotaGen 通过强化学习(CLaMP-DPO)显著提高音乐质量。

项目地址:https://electricalexis.github.io/notagen-demo/

论文:https://arxiv.org/pdf/2502.18008

GitHub:https://github.com/ElectricAlexis/NotaGen


来源:NotaGen: 一个高质量古典乐谱音乐生成模型 具备“乐谱级”音乐生成能力