Fin-R1：基于Qwen2.5-7B 并通过强化学习训练金融推理模型 在多项金融基准测试中SOTA 水平

📰 正文

Fin-R1 是由上海财经大学统计与数据科学学院张立文教授团队（SUFE-AIFLM-Lab）联合财跃星辰共同研发并开源发布，专注于金融复杂推理任务。

该模型基于 Qwen2.5-7B-Instruct 构建，利用 DeepSeek-R1 框架进行“数据蒸馏”与“双轮质量筛选”，通过高质量思维链数据的监督微调（SFT）+ 强化学习（RL），在多项金融基准测试中表现出色，达到 SOTA 水平。

模型基座：Qwen2.5-7B-Instruct

参数规模：7B

模型目标：专注于提升金融推理能力，如金融计算、合规检查、智能风控、ESG 分析等复杂任务。

训练策略：监督微调（SFT） + 强化学习（RL）

Fin-R1 设计用于金融核心业务场景中的推理与分析任务，包括：

✅ 金融代码编写与生成（如定价模型、风险评估脚本）

✅ 金融计算与建模（量化分析、报表计算等）

✅ 英文金融建模与报告撰写

✅ 金融安全合规分析

✅ 智能风控（交易反欺诈、违约预测）

✅ ESG 可持续性分析（环境、社会、治理）

Fin-R1 的核心应用场景展示

Fin-R1 具备多维度能力，覆盖银行、证券、基金、保险、信托等多个金融子行业，具体支持以下应用场景：

1️⃣ 金融代码（Financial Coding）

含义：

指金融专业人员用于建模、分析和自动化任务的编程代码

包括：资产定价、衍生品模型、收益计算、风险因子回测等

Fin-R1 可用能力：

帮助生成符合业务逻辑的 Python / R / SQL 金融代码

提示合理的 API 使用与数学公式实现

对已有代码进行审查、解释与优化

✅ 适用于：量化分析师、风控建模师、数据分析师

2️⃣ 金融计算（Financial Calculation）

含义：

涉及财务报表分析、资产配置、价值评估、现金流建模等定量计算

Fin-R1 可用能力：

理解金融公式并生成运算流程

协助构建贴现模型、期权定价模型等

解释复杂计算的步骤和经济含义

✅ 适用于：投资经理、CFO、金融工程师

3️⃣ 英语金融计算（English Financial Reasoning）

含义：

支持在英文环境中进行金融建模、报告生成、对话交互

Fin-R1 可用能力：

使用英文完成金融推理任务（如英语问答、英文报告草拟）

适应国际化工作场景，如与外资研究员/客户沟通

✅ 适用于：跨境投行、国际资管、双语课程教学

4️⃣ 金融安全合规（Financial Compliance & Regulation）

含义：

审核金融行为是否违反监管规定，如洗钱、利益冲突、数据合规

Fin-R1 可用能力：

审查金融行为或文本描述是否合规

提出合规建议或合规条款匹配

自动化生成合规审计报告内容草稿

✅ 适用于：合规部门、风控人员、审计机构

5️⃣ 智能风控（AI-Driven Risk Control）

含义：

利用 AI + 大数据识别风险，提升风控效率与精准度

Fin-R1 可用能力：

分析交易模式与信用评分

警示异常资金流动或客户行为

支持构建动态风控逻辑（如多轮推理+实时调整）

✅ 适用于：风控建模、信贷评估、反欺诈系统

6️⃣ ESG 分析（Environmental, Social, Governance）

含义：

评估企业在环境保护、社会责任、公司治理方面的表现，用于 ESG 投资决策

Fin-R1 可用能力：

从 ESG 报告中抽取要点并总结评价

基于历史表现给出 ESG 风险提示

结合财务数据进行 ESG 与财务绩效的关联分析

✅ 适用于：ESG 投资经理、基金公司研究员、评级机构

技术方法详解

📦 1. 数据构建

基于 DeepSeek-R1 框架进行“数据蒸馏”与“双轮质量筛选”：

蒸馏数据源包括：FinCorpus、Ant_Finance、FinPEE、FinanceIQ、ConvFinQA、FinanceQT 等

数据总量达 60,000+ 条高质量 COT（Chain-of-Thought）金融数据

精选出适用于：

金融推理类任务

非推理类业务知识

金融表格计算与对话任务

✨ 筛选机制：

第1轮：规则匹配 + Qwen2.5-72B-Instruct 打分（判断答案是否正确）

第2轮：对推理链进行打分，评估逻辑性、术语一致性、步骤完整性等

🎯 2. 模型训练流程

第一阶段：监督微调（SFT）

使用 ConvFinQA + FinQA 等数据集进行初步训练，注入复杂金融逻辑推理能力。

第二阶段：强化学习（RL）

使用 GRPO（Group Relative Policy Optimization）算法

引入双奖励机制（格式+准确度）

借助 Qwen2.5-Max 构建的模型式验证器评估输出准确性

📌 此策略显著提高了模型在复杂多步骤金融推理任务中的泛化与可靠性。

模型评测结果（五大任务）

Fin-R1（强化后），在多个真实金融任务中表现优异，特别是在金融推理方面，以仅 7B 参数，超越大多数同规模乃至数十倍规模模型，部分关键任务甚至拿下第一。

📌 Fin-R1 平均得分：75.2 分

在所有参评模型中排名第 2

仅比行业标杆 DeepSeek-R1 低 3.0 分

比另一款 70B 模型（DeepSeek-R1-Distill）高出 6.0 分

并在：

FinQA（表格推理）、ConvFinQA（对话式金融 QA）中取得最高分，验证其推理能力强、泛化性好。

说明 Fin-R1 擅长处理：

表格类金融问题（逻辑复杂、数字精细）

多轮语义推理任务（对话连续性强）

模型下载：https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1

论文：https://arxiv.org/pdf/2503.16252

来源：Fin-R1：基于Qwen2.5-7B 并通过强化学习训练金融推理模型在多项金融基准测试中SOTA 水平

📰 正文#

📰 正文