上海财经大学联合财跃星辰开源首个金融领域R1类推理大模型Fin-R1:仅7B参数,逼近DeepSeek满血版效果

2025-03-21 10:01:00

财联社3月21日讯,近日,上海财经大学张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合界面财联社旗下大模型科技公司财跃星辰开源发布首款金融领域R1类推理大模型Fin-R1。

Fin-R1仅7B参数,但在权威评测中,与参数量为671B的行业标杆DeepSeek-R1平均分差距仅3分,以75.2分的平均得分位居评测榜单第二。Fin-R1通过构建高质量金融推理数据集与两阶段混合框架训练,验证了金融领域R1 类推理大模型的可复现性,并探索出了金融领域“数据构建-模型训练-性能验证-模型部署-场景应用”的全闭环链路,将推动大模型在金融领域加快落地。

Github地址:
https://github.com/SUFE-AIFLM-Lab/Fin-R1

技术报告:
https://arxiv.org/abs/2503.16252

模型地址:
https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1

应用图景:重构金融业务链条,贯穿金融生态应用

Fin-R1是一款专为金融领域打造的智能推理大模型,能够在银行、基金、保险和证券等多个场景中大展身手。在银行业务中,它可以精准计算贷款利息、优化财富管理方案;在基金投资中,它能辅助投资顾问进行资产配置,帮助用户做出更明智决策;在保险行业,它能高效评估保单收益,预测市场趋势;在证券领域,它甚至可以参与量化交易代码编写,提升从业者的代码效率。得益于高质量数据的训练,Fin-R1不仅能提供扎实的金融知识支持,还能进行复杂的推理计算,在智能投研、市场分析和自动化金融决策方面都具备强大能力。

图1 Fin-R1应用场景示例

Fin-R1工作流程速览

Fin-R1的总体工作流程为:项目组首先通过构建60k规模的金融推理数据集Fin-R1-Data,帮助模型重构知识体系,然后采用“两阶段训练框架”塑造模型认知和推理能力,最后在多个金融基准测试上验证模型的性能突破,实现了从“数据构建-模型训练-性能验证-模型部署-场景应用”的完整技术闭环。

图2 Fin-R1总体工作流程

数据构建——破解知识碎片难题,构建金融决策基石

图3 Fin-R1数据生成流程

在金融领域,复杂的业务逻辑要求模型不仅理解碎片化知识,更需要建立可验证的多步推理能力。然而,传统的金融数据分散、标注成本高,而且缺乏对复杂推理逻辑的针对性设计,导致模型难以适配金融业务场景。

为将 DeepSeek-R1的推理能力迁移至金融场景并解决高质量金融推理数据问题,项目组利用Deepseek-R1(满血版)针对涵盖行业语料(FinCorpus、Ant_Finance),专业认知(FinPEE),业务知识(FinCUGE、FinanceIQ、Finance-Instruct-500K),表格解析(FinQA),市场洞察(TFNS),多轮交互(ConvFinQA)以及量化投资(FinanceQT)的多个数据集进行领域知识蒸馏筛选,构建了约60k条面向专业金融推理场景的高质量推理数据集Fin-R1-Data。

该数据集涵盖中英文金融领域的多维度专业知识,并根据具体任务内容将其分为金融代码、金融专业知识、金融非推理类业务知识和金融推理类业务知识四大模块,可有效支撑银行、证券以及信托等多个金融核心业务场景。

为了保证数据质量,项目组首创“答案+推理逻辑”双轮打分机制,双轮质检,严把数据关。

第一轮:用规则匹配和Qwen2.5-72B-Instruct对答案准确性进行打分,确保数据 “零错误”;

第二轮:深度校验推理逻辑的一致性和术语合规性,让AI的“思维链条”严丝合缝。

第三轮:引入金融专家团队对关键数据进行人工复核,保障训练数据高质量。

数据分布及其总览如图4和表1所示:

图4 Fin-R1数据分布

表1 Fin-R1数据量表

模型训练——“划重点-考试-打分”模式给AI上"金融特训课",两步打造金融决策专家

模型的整体训练框架如图5所示。

图5 Fin-R1模型训练流程

第一步:系统学习(SFT指令微调)——学习思考模式

针对非推理类模型在RL训练过程中存在训练不稳定等问题,研究团队对AI进行专项知识补课,像教学生一样训练模型,让非推理类模型掌握金融推理的基本功。使用金融推理数据集对模型进行定向训练(SFT),使模型初步具备长思维链思考模式,降低模型训练难度,保证训练稳定性。

第二步:实战优化(RL强化学习)——严控决策质量

通过考试和专家打分(RL强化学习),不断纠正AI在复杂场景中的判断失误,确保每个决策都经得起推敲。在模型掌握基础知识后,通过"考试+专家打分"机制(RL)持续提升专业性:

智能考官把关:引入Qwen2.5-Max作为验证器用于检查答案对错,比传统正则表达式方式准确度更高。

双轨打分制:采用“基于规则的格式奖励 “和”基于模型验证的准确性奖励 “两种奖励训练模型,实现金融文本生成“形神兼备”。

特训成果:金融界的“最强大脑”

项目组采用了两阶段训练方法,在提升模型金融推理性能的同时,有效降低了训练资源的消耗。经过特训的Fin-R1模型,在金融推理任务中展现出了卓越性能。Fin-R1能够完整地呈现思考过程,不仅为金融决策提供深入洞察,更为金融投资、风险管理、智能投顾以及量化交易等金融业务领域提供了可靠技术底座。未来,这样的“金融特训营”模式有望在更多专业领域复制推广。

性能验证——专业场景性能超越,验证技术闭环价值

在覆盖多项金融业务场景的权威评测中,项目组考虑模型的推理能力与资源消耗,将Fin-R1与涵盖轻量级和高性能的不同模型进行了全面评估。最终Fin-R1以仅7B的轻量化参数规模展现出显著的性能优势,以75.2的平均得分位居第二。

Fin-R1全面超越同规模参评模型,与平均得分第一的DeepSeek-R1差距仅为3分,同时较70B参数模型
DeepSeek-R1-Distill-Llama-70B(69.2)超出6分。此外,Fin-R1在聚焦真实金融表格数值推理任务的FinQA以及多轮交互场景的ConvFinQA 两大关键任务测试上分别以76.0和85.0的得分在参评模型中登顶第一,展现出了模型在金融推理场景及金融多轮交互场景中的强大处理能力。

Fin-R1的评测还展现出模型在处理财务报表重组、财务比率交叉验证时的强大数值推理能力。精准覆盖金融行业对可解释性、合规性、数值严谨性的核心诉求。具体评测结果如下:

表2 Fin-R1及其他模型在各数据集上的评测表现

模型部署

Github现已提供“开箱即用”的本地化部署方案,只需运行一个安装脚本,就能在单张4090显卡上轻松部署Fin-R1模型。无论是银行风控还是量化交易,用户都能快速上手,解决各类金融场景问题,真正实现“一键部署”。

场景应用

Fin-R1在金融领域展现出多场景适配能力:它能轻松搞定交易系统代码生成、DCF估值、期权定价等复杂计算任务,还支持英文金融计算,助力跨境业务分析。在金融安全与合规方面,Fin-R1化身“风控卫士”实时监测交易异常;在智能风控领域,它的动态信用评分模型让风险评估更精准。同时,Fin-R1还能协助生成符合GRI标准的ESG报告,助力企业绿色转型。这些场景应用均可在GitHub中查看。

定义金融AI新范式,生态赋能引领未来

Fin-R1的技术突破,解决了金融数据碎片化、推理逻辑不可控、业务泛化能力弱三大金融核心痛点。无论是金融推理还是合规审查等业务场景,模型均以数据验证其性能优势,更通过可解释的思维链输出,增强了输出金融决策的说服力。

张立文教授团队研究领域包括大模型理论及应用,金融科技等,专注于大模型语料构建、大模型训练、部署、评测及智能体应用。团队与互联网大厂、金融机构、政府部门等合作,在政府治理、金融、营销等领域提供人工智能与大模型支持。

张立文教授表示,项目组复现了金融领域首个推理大语言模型——Fin-R1。Fin-R1对7B参数的基座模型进行两阶段训练,在金融推理任务上的能力超过32B的模型,效果逼近DeepSeek-R1(满血版)。Fin-R1从训练框架到模型权重均开源,计算资源需求量小,个人电脑即可部署,更加适用于金融场景,并且通过两阶段训练框架,解决了金融数据碎片化和推理逻辑不可控等问题,在各大金融基准测试中表现卓越,展现出强大的推理能力和业务泛化能力,为金融智能化发展提供有力支持。

财跃星辰是专注于金融领域的大模型科技公司,由国内领先的财经媒体和金融信息服务商界面财联社和头部通用大模型公司阶跃星辰联合创办。

财跃星辰CTO白祚博士表示,本次开源的Fin-R1模型具备优秀的产业价值。Fin-R1模型以7B小规模参数,在金融领域展现接近DeepSeek-R1的准确率。模型在确保金融垂类任务高准确性要求下,指数级地降低成本,实现金融普惠。此外,本次开源的“数据构建-模型训练-性能验证-模型部署-场景应用”的全链路闭环具备良好的可复制性,可快速落地于各类应用场景。财跃星辰正将Fin-R1 应用于证券、银行、保险、基金等全方位金融场景,并根据不同场景要求,针对性地进行模型调优升级。

(财联社)