type
status
date
slug
summary
tags
category
icon
password

一、赛事理解

Task
学习目标
Task任务说明
Task1
跑通baseline,体验「让AI学会数学推理」
1.精调数学推理模型 2.发布自己的模型
Task2
学习「让AI学会数学推理」的重难点
1.清洗优化数据集 2.对数据集进行推理
Task3
学习并持续实践大模型推理,上分
1.COT范式是什么? 2.大模型微调的基本原理和方法

1. 知识点提要

  • 数学推理建模:理解题目并生成清晰的解题过程(CoT)
  • 大模型推理:使用DeepSeek模型生成高质量推理数据
  • LoRA精调:低资源条件下高效训练模型
  • 模型蒸馏:将大模型能力迁移至小模型
  • 平台实操能力:掌握讯飞MaaS平台的数据管理与模型部署流程
  • 综合评估优化:依据准确性、推理质量、效率和模型大小多维优化模型表现
 
赛题的核心目标,是通过 “模型蒸馏技术” ,把更聪明的“教师模型”(此赛题限定为DeepSeek-R1)的 “数学推理智慧和能力”,通过微调的方式,赋予给“学生模型”(赛题限定了三个Distill模型),让他们也能掌握“数学推理能力”
学生模型限定为:DeepSeek-R1-Distill-Qwen-7b / 14b / 32b
 

2. 模型蒸馏步骤

  1. 清洗 训练集,使训练集的推理更清晰、准确;【一般可能采用人工处理】
  1. 使用 训练集 微调 教师模型(限定为DeepSeek-R1系列模型),【让教师模型的数学推理能力更强】
  1. 教师模型测试集 进行 批量推理,获得包含完整CoT推理链的数学解题输出微调集;【测试集 即为我们需要学生掌握的数学推理能力】
  1. 选择学生模型,使用 微调集 进行 LoRA 精调(即微调)【如此,我们便完成了模型蒸馏的所有流程,把教师在测试集上的智慧传授给了学生】
 

3. 评测维度及得分计算

最终总分为四项子指标加权汇总结果:
  • AS(答案准确率):正确答案比例,映射至 0–100;
  • CQS(CoT推理质量):推理链逻辑性与合理性;
  • ES(解题效率):每条题目推理所用 token 数;
  • MLS(模型轻量化):模型整体文件大小。
其中,CQS 与 ES 仅在 AS 正确前提下有效评估(答案错误则得分打折)。
 

二、解题思考过程

 
notion image
 
可以将建模过程分为 5 步:
  1. 数据准备
      • 清洗官方提供的数据
      • 补充格式统一的公开数学题(可选)
      • 格式为:{“input”: 题目, “output”: 推理过程 + 答案}
  1. 教师模型生成推理链数据(CoT)
      • 使用DeepSeek-R1生成高质量思维链数据作为训练目标
  1. 蒸馏训练学生模型
      • 选择轻量模型DeepSeek-R1-Distill-Qwen-7b / 14b / 32b(支持LoRA)
      • 使用步骤2中的数据进行模型精调
      • 控制训练方式避免资源浪费(选择LoRA精调)
  1. 模型评估与调优
      • 验证模型在测试题上的解答准确性与推理质量
      • 调整蒸馏数据比例、模型结构、训练参数等
  1. 模型发布与提交
      • 使用讯飞星辰平台部署模型,获得resourceid
      • 提交用于评测并优化得分(准确率 + 逻辑性 + 效率 + 体积)
 

三、实践过程

1. 跑通Baseline

Datawhale已提供一个微调数据集。该数据集由教师模型对测试集进行批量推理,获得包含完整CoT推理链的数学解题输出微调集,可直接用于学生模型的蒸馏训练。
notion image
 
在讯飞星辰MaaS平台使用零代码精调服务,选用的基础模型DeepSeek-R1-Distill-Qwen-7B精调方式选择LoRA精调参数配置如下:
 
notion image
 
点击提交后模型开始训练。待训练完成后发布为服务,得到大模型的ResourceID,即可提交。待评分完成后,得到Baseline的成绩为77分
 

2. 上分尝试

总体来说,模型蒸馏的核心在于蒸馏出的文本知识数据集的流程,提分的要点,就是让蒸馏出来的知识,更加优质。
我们主要可以从:
  • 提升教师模型的能力【微调教师模型】
  • 提升调用教师模型推理的效果【Prompt工程】
两大方面入手,一些参考思路如下表所示:
notion image
 

2.1 增加微调数据

鉴于Datawhale提供的微调数据集只有两百条,故可通过扩大数据集的方式提升学生模型的能力(可以理解为教师把更多在测试集上的智慧传授给了学生)。 使用讯飞星辰MaaS平台的批量推理服务,输入测试集(400条)由DeepSeek-R1教师模型得到推理链数据(400条)
 
notion image
 
 
需要注意的是,得到的400条推理链数据中,有部分数据“output”字段为空,应删除这些数据,再使用推理链数据进行模型精调。精调过程与Baseline大致相同,故不再赘述。待训练完成后发布为服务,提交ResourceID,待评分完成后得到成绩为84分
 

2.2 Prompt工程

Prompt是一个简短的文本输入,用于引导AI模型生成特定的回答或执行特定任务。换句话说,Prompt是你与AI模型沟通的方式。一个好的Prompt可以让AI更准确地理解你的需求,从而给出更有用的回答。通过对数据进行Prompt工程,可以使教师模型生成更高质量的推理结果,提升对学生模型的指导作用。
 
例如,将测试集的input改造成如下格式:
将修改后的测试集由DeepSeek-R1教师模型得到推理链数据,再进行模型精调。待评分完成后得到成绩为84分
 
回顾评测指标,最终总分为四项子指标加权汇总结果:
  • AS(答案准确率):正确答案比例,映射至 0–100;
  • CQS(CoT推理质量):推理链逻辑性与合理性;
  • ES(解题效率):每条题目推理所用 token 数;
  • MLS(模型轻量化):模型整体文件大小。
 
经过Prompt工程后得到的分数并没有提升,可能的原因是更多的输入(字数)使得每条题目推理所用token数增加,从而解题效率降低。
 

2.3 参数配置

调整关键训练参数可能显著影响模型性能。在讯飞星辰MaaS平台,可支持配置的微调参数可以分成下面三个大类。
notion image
 
经实验后,最终的参数调整为
参数名称
调整
说明
学习率
调整为8e-5
使更新更加稳定
训练次数
减少为3
避免过拟合
LoRA随机丢弃
降低为0.01
减少随机性
LoRA缩放系数
提高为32
增强适配器作用
LoRA秩
提高为16
保留更多信息
notion image
 
参数调整后进行微调,分数提升至85分
 

四、心得体会与展望

参加本次「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」,我深刻体会到了大模型知识蒸馏的复杂性和优化策略的微妙平衡。从最初的Baseline跑通,到逐步优化模型性能,再到最终取得较好的成绩,整个过程让我对模型蒸馏、Prompt工程、参数调优等关键技术有了更深入的理解。

1. 心得体会

 
  • 数据质量决定模型上限
在模型蒸馏任务中,教师模型的输出质量直接影响学生模型的学习效果。最初,我们直接使用官方提供的200条数据训练,发现模型推理能力有限。后来,通过扩充数据集(400条教师模型生成的CoT数据)并清洗无效样本,分数得到显著提高。在AI模型训练中,数据是“燃料”,而高质量的数据才是“高能燃料”。
 
  • 模型蒸馏的核心是“有效知识迁移”
蒸馏的目标是让“学生模型”学会“教师模型”的推理能力,但并非所有知识都能完美迁移。实验发现:
Prompt工程影响推理风格:在输入问题前加入“请逐步推理”等引导词,能提升CoT的清晰度,但过度增加Prompt长度会导致ES(解题效率)下降。
LoRA微调需要平衡Rank和过拟合:提高LoRA的Rank(如从8调整到16)能增强模型表达能力,但过高的Rank会让小模型“学偏”,反而降低泛化能力。
蒸馏不是简单的“复制粘贴”,而是“因材施教”,要根据学生模型的能力调整教学(训练)策略。
 
  • 参数调优是一门“实验艺术”
在优化过程中,我尝试了不同的超参数组合,发现较高的LR(如3e-4)能快速收敛,但可能错过精细优化;较低的LR(如5e-5)训练更稳定,但需要更长时间。调参就像“炒菜”,火候(学习率)、时间(Epochs)、配料(Batch Size)都要恰到好处,才能做出好模型。
 
  • 比赛评估指标的多目标博弈
最终得分由AS、CQS、ES、MLS四个指标加权计算,优化时需要权衡。
AS和CQS通常正相关:更好的推理逻辑(CQS)一般会带来更高的准确率(AS)。
但ES和MLS可能与其他指标冲突:
① 更详细的推理(高CQS)会增加token数(降低ES)。
② 更大的模型(如32B)可能提升AS,但因MLS权重惩罚总分反降。
 

2. 展望

通过这次比赛,我不仅掌握了模型蒸馏的核心技术,还学会了如何系统性地优化AI模型。未来,我希望进一步探索:
  1. 教师模型增强:先用数学语料进一步预训练教师模型,再生成更优质的CoT数据。
  1. 动态蒸馏策略:根据题目难度调整蒸馏强度(如简单题少训练,难题多训练)。
  1. 多模型融合:结合7B的效率和32B的精度,探索模型集成方案。
 
最后,我要特别感谢Datawhale和讯飞星辰MaaS平台提供这样一个高质量的竞赛舞台,让我们能够深入实践大模型蒸馏技术,并在真实场景中验证优化思路。感谢Datawhale提供的清晰赛题指导、Baseline代码以及开源学习资料,让我们能够快速上手,少走弯路。感谢讯飞平台的强大算力支持和便捷的模型训练/部署工具,让即使没有深厚工程背景的同学也能轻松参与大模型精调。感谢社区和队友们的交流与分享,在讨论中碰撞出的灵感往往比独自摸索更高效。
 
这次比赛不仅让我提升了技术能力,更让我认识到开放协作和实践驱动的学习方式的重要性。
心怀感激,继续前进! 🌟
 
 
 
LeetCode 每日一题LeetCode 每日一题
Loading...