DeepSeek 开源了一个数学推理大模型：DeepSeek-Math-V2 超越Gemini 获得 IMO 金牌

📰 正文

DeepSeek-Math-V2 是一个能“自己检查自己是否算对”的数学推理大模型。

以往的数学大模型（比如 ChatGPT、Gemini、Claude）可以解题，但常常：

过程不严谨；

中间步骤错误；

虽然“答案对”，但“推理错”。

DeepSeek 团队认为：

真正的数学AI，不只是算出正确答案，而是能验证自己的推理是否合理。

于是，他们在 DeepSeek-V3.2 模型基础上，训练出了这个**“可自验证（Self-Verifiable）”的数学模型** —— DeepSeek-Math-V2。

模型能： 1.

自动生成数学证明；

自行检查每一步是否合理；

修正推理错误后再输出最终证明。

模型核心思想（Self-Verification 自验证）

DeepSeek-Math-V2 的核心创新是一个“生成 + 验证+复审”的自我验证系统”。

这三个模块通过**循环训练（iterative RL loop）**协同进化：验证器让生成器变强，生成器反过来制造更难的题让验证器变强。

模型通过一种循环训练方式，让生成器和验证器相互提升： 1.

生成器写出数学推理步骤；

验证器审查逻辑是否自洽、是否满足推理规则；

错误部分被标注为“负样本”；

系统自动修正并重新生成；

形成“自我批改式学习闭环”。

📈 这与传统“RL强化学习”不同：

旧方法：只看“最后答案对不对”；

DeepSeek方法：关注“每一步推理是否正确”。

这让模型不仅会算，还能“会讲、会证、会查错”。

关键技术详解

1️⃣ Proof Verifier（验证器）

训练目标：让LLM像数学专家一样打分证明的“严谨度”。

评分标准：

1.0：完全正确、逻辑严谨

0.5：总体正确但有小错误

0.0：逻辑错误或关键步骤缺失

训练过程：

从 AoPS（Art of Problem Solving）网站收集了 17,503 道数学证明题；

由专家人工评分形成初始数据；

模型通过强化学习学习“怎样像专家那样打分”；

使用奖励函数衡量预测分数与专家分数的一致性。

2️⃣ Meta-Verifier（元验证器）

问题：验证器有时“幻觉”出错误，比如明明正确却说有问题。

解决：再训练一个“检查验证器”的AI —— 元验证器。

功能：

判断验证器指出的问题是否真实存在；

检查验证理由是否逻辑自洽；

如果验证器乱判错，元验证器会惩罚它。

结果：

在验证数据集上，验证器的评分质量从 0.85 → 0.96，大幅提升可信度。

3️⃣ Proof Generator（生成器）

基于验证器作为奖励模型（reward model）训练生成器：

生成器写证明；

验证器给分；

分高代表证明严谨；

分低则生成器自动改进。

新增创新：自验证训练（Self-Verification）

生成器不仅写证明，还要“批改自己”，用和验证器一样的标准给自己打分。

奖励设计：

承认错误比撒谎得分高；

诚实分析+修正错误能得到最高分。

通过这种机制，AI被引导学会“真实反思与改进”。

4️⃣ 自动标注循环（Auto-Labelling Pipeline）

为了摆脱人工标注，DeepSeek还设计了一个全自动循环： 1.

生成大量证明；

多次由验证器审查；

由元验证器验证这些审查；

自动生成“真标签”；

继续训练下一轮验证器。

最后两轮训练已完全不需要人工参与。 AI自己生成、检查、打分、进化。

性能与评估结果

DeepSeek-Math-V2 在多个高难度数学测试上表现优异

在五大数学领域（代数、几何、数论、组合、不等式）中：

DeepSeekMath-V2 全面超越 GPT-5-Thinking 和 Gemini 2.5 Pro。

模型能通过多轮自检与修正提高证明质量：

连续8轮自验证后，正确率显著提升；

模型能准确识别并修复自己的推理错误；

“自己挑出的最佳证明”与外部验证结果高度一致。

结论：

DeepSeekMath-V2 能可靠地区分“好证明”和“坏证明”，并能自主改进逻辑。

此外：

在 DeepMind 的 IMO-ProofBench 数据集上超过 Gemini DeepThink，获得第一

对最难题（IMO-hard）仍有挑战，但模型能准确指出自己的逻辑漏洞。

🏆 竞赛表现

IMO 2025（国际数学奥赛）：解出 6 题中 5 题，金牌水平。

CMO 2024（中国数学奥赛）：解出 4 题 + 1 题部分得分，金牌水平。

Putnam 2024（美国大学数学赛）：118/120 分，几乎满分。

🧠 能力特点

准确率高：答案正确率超过 GPT-5 与 Gemini 系列；

推理严谨：每一步逻辑都能自检，避免跳步或幻觉；

自我改进能力强：能在多轮验证中不断提升证明质量；

解释性好：输出不仅有结论，还有完整推理过程；

GitHub：https://github.com/deepseek-ai/DeepSeek-Math-V2

模型下载：https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

技术报告：https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

来源：DeepSeek 开源了一个数学推理大模型：DeepSeek-Math-V2 超越Gemini 获得 IMO 金牌

📰 正文#

📰 正文