type
status
date
slug
summary
tags
category
icon
password
本期学习聚焦在「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」的模型优化实践。
一、赛事理解
Task | 学习目标 | Task任务说明 |
Task1 | 跑通baseline,体验「让AI学会数学推理」 | 1.精调数学推理模型
2.发布自己的模型 |
Task2 | 学习「让AI学会数学推理」的重难点 | 1.清洗优化数据集
2.对数据集进行推理 |
Task3 | 学习并持续实践大模型推理,上分 | 1.COT范式是什么?
2.大模型微调的基本原理和方法 |
1. 知识点提要
- 数学推理建模:理解题目并生成清晰的解题过程(CoT)
- 大模型推理:使用DeepSeek模型生成高质量推理数据
- LoRA精调:低资源条件下高效训练模型
- 模型蒸馏:将大模型能力迁移至小模型
- 平台实操能力:掌握讯飞MaaS平台的数据管理与模型部署流程
- 综合评估优化:依据准确性、推理质量、效率和模型大小多维优化模型表现
赛题的核心目标,是通过 “模型蒸馏技术” ,把更聪明的“教师模型”(此赛题限定为DeepSeek-R1)的 “数学推理智慧和能力”,通过微调的方式,赋予给“学生模型”(赛题限定了三个Distill模型),让他们也能掌握“数学推理能力”
学生模型限定为:DeepSeek-R1-Distill-Qwen-7b / 14b / 32b
2. 模型蒸馏步骤
- 清洗 训练集,使训练集的推理更清晰、准确;【一般可能采用人工处理】
- 使用 训练集 微调 教师模型(限定为DeepSeek-R1系列模型),【让教师模型的数学推理能力更强】
- 教师模型 对 测试集 进行 批量推理,获得包含完整CoT推理链的数学解题输出微调集;【测试集 即为我们需要学生掌握的数学推理能力】
- 选择学生模型,使用 微调集 进行 LoRA 精调(即微调)【如此,我们便完成了模型蒸馏的所有流程,把教师在测试集上的智慧传授给了学生】
3. 评测维度及得分计算
最终总分为四项子指标加权汇总结果:
- AS(答案准确率):正确答案比例,映射至 0–100;
- CQS(CoT推理质量):推理链逻辑性与合理性;
- ES(解题效率):每条题目推理所用 token 数;
- MLS(模型轻量化):模型整体文件大小。
其中,CQS 与 ES 仅在 AS 正确前提下有效评估(答案错误则得分打折)。
二、解题思考过程

可以将建模过程分为 5 步:
- 数据准备
- 清洗官方提供的数据
- 补充格式统一的公开数学题(可选)
- 格式为:{“input”: 题目, “output”: 推理过程 + 答案}
- 教师模型生成推理链数据(CoT)
- 使用DeepSeek-R1生成高质量思维链数据作为训练目标
- 蒸馏训练学生模型
- 选择轻量模型DeepSeek-R1-Distill-Qwen-7b / 14b / 32b(支持LoRA)
- 使用步骤2中的数据进行模型精调
- 控制训练方式避免资源浪费(选择LoRA精调)
- 模型评估与调优
- 验证模型在测试题上的解答准确性与推理质量
- 调整蒸馏数据比例、模型结构、训练参数等
- 模型发布与提交
- 使用讯飞星辰平台部署模型,获得resourceid
- 提交用于评测并优化得分(准确率 + 逻辑性 + 效率 + 体积)
三、实践过程
1. 跑通Baseline
Datawhale已提供一个微调数据集。该数据集由教师模型对测试集进行批量推理,获得包含完整CoT推理链的数学解题输出微调集,可直接用于学生模型的蒸馏训练。

在讯飞星辰MaaS平台使用零代码精调服务,选用的基础模型为DeepSeek-R1-Distill-Qwen-7B,精调方式选择LoRA精调,参数配置如下:

点击提交后模型开始训练。待训练完成后发布为服务,得到大模型的ResourceID,即可提交。待评分完成后,得到Baseline的成绩为77分。
2. 上分尝试
总体来说,模型蒸馏的核心在于蒸馏出的文本知识数据集的流程,提分的要点,就是让蒸馏出来的知识,更加优质。
我们主要可以从:
- 提升教师模型的能力【微调教师模型】
- 提升调用教师模型推理的效果【Prompt工程】
两大方面入手,一些参考思路如下表所示:

2.1 增加微调数据
鉴于Datawhale提供的微调数据集只有两百条,故可通过扩大数据集的方式提升学生模型的能力(可以理解为教师把更多在测试集上的智慧传授给了学生)。
使用讯飞星辰MaaS平台的批量推理服务,输入测试集(400条)由DeepSeek-R1教师模型得到推理链数据(400条)。

需要注意的是,得到的400条推理链数据中,有部分数据“output”字段为空,应删除这些数据,再使用推理链数据进行模型精调。精调过程与Baseline大致相同,故不再赘述。待训练完成后发布为服务,提交ResourceID,待评分完成后得到成绩为84分。
2.2 Prompt工程
Prompt是一个简短的文本输入,用于引导AI模型生成特定的回答或执行特定任务。换句话说,Prompt是你与AI模型沟通的方式。一个好的Prompt可以让AI更准确地理解你的需求,从而给出更有用的回答。通过对数据进行Prompt工程,可以使教师模型生成更高质量的推理结果,提升对学生模型的指导作用。
例如,将测试集的input改造成如下格式:
将修改后的测试集由DeepSeek-R1教师模型得到推理链数据,再进行模型精调。待评分完成后得到成绩为84分。
回顾评测指标,最终总分为四项子指标加权汇总结果:
- AS(答案准确率):正确答案比例,映射至 0–100;
- CQS(CoT推理质量):推理链逻辑性与合理性;
- ES(解题效率):每条题目推理所用 token 数;
- MLS(模型轻量化):模型整体文件大小。
经过Prompt工程后得到的分数并没有提升,可能的原因是更多的输入(字数)使得每条题目推理所用token数增加,从而解题效率降低。
2.3 参数配置
调整关键训练参数可能显著影响模型性能。在讯飞星辰MaaS平台,可支持配置的微调参数可以分成下面三个大类。

经实验后,最终的参数调整为
参数名称 | 调整 | 说明 |
学习率 | 调整为8e-5 | 使更新更加稳定 |
训练次数 | 减少为3 | 避免过拟合 |
LoRA随机丢弃 | 降低为0.01 | 减少随机性 |
LoRA缩放系数 | 提高为32 | 增强适配器作用 |
LoRA秩 | 提高为16 | 保留更多信息 |

参数调整后进行微调,分数提升至85分。
四、心得体会与展望
参加本次「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」,我深刻体会到了大模型知识蒸馏的复杂性和优化策略的微妙平衡。从最初的Baseline跑通,到逐步优化模型性能,再到最终取得较好的成绩,整个过程让我对模型蒸馏、Prompt工程、参数调优等关键技术有了更深入的理解。
1. 心得体会
- 数据质量决定模型上限
在模型蒸馏任务中,教师模型的输出质量直接影响学生模型的学习效果。最初,我们直接使用官方提供的200条数据训练,发现模型推理能力有限。后来,通过扩充数据集(400条教师模型生成的CoT数据)并清洗无效样本,分数得到显著提高。在AI模型训练中,数据是“燃料”,而高质量的数据才是“高能燃料”。
- 模型蒸馏的核心是“有效知识迁移”
蒸馏的目标是让“学生模型”学会“教师模型”的推理能力,但并非所有知识都能完美迁移。实验发现:
① Prompt工程影响推理风格:在输入问题前加入“请逐步推理”等引导词,能提升CoT的清晰度,但过度增加Prompt长度会导致ES(解题效率)下降。
② LoRA微调需要平衡Rank和过拟合:提高LoRA的Rank(如从8调整到16)能增强模型表达能力,但过高的Rank会让小模型“学偏”,反而降低泛化能力。
蒸馏不是简单的“复制粘贴”,而是“因材施教”,要根据学生模型的能力调整教学(训练)策略。
- 参数调优是一门“实验艺术”
在优化过程中,我尝试了不同的超参数组合,发现较高的LR(如3e-4)能快速收敛,但可能错过精细优化;较低的LR(如5e-5)训练更稳定,但需要更长时间。调参就像“炒菜”,火候(学习率)、时间(Epochs)、配料(Batch Size)都要恰到好处,才能做出好模型。
- 比赛评估指标的多目标博弈
最终得分由AS、CQS、ES、MLS四个指标加权计算,优化时需要权衡。
AS和CQS通常正相关:更好的推理逻辑(CQS)一般会带来更高的准确率(AS)。
但ES和MLS可能与其他指标冲突:
① 更详细的推理(高CQS)会增加token数(降低ES)。
② 更大的模型(如32B)可能提升AS,但因MLS权重惩罚总分反降。
2. 展望
通过这次比赛,我不仅掌握了模型蒸馏的核心技术,还学会了如何系统性地优化AI模型。未来,我希望进一步探索:
- 教师模型增强:先用数学语料进一步预训练教师模型,再生成更优质的CoT数据。
- 动态蒸馏策略:根据题目难度调整蒸馏强度(如简单题少训练,难题多训练)。
- 多模型融合:结合7B的效率和32B的精度,探索模型集成方案。
最后,我要特别感谢Datawhale和讯飞星辰MaaS平台提供这样一个高质量的竞赛舞台,让我们能够深入实践大模型蒸馏技术,并在真实场景中验证优化思路。感谢Datawhale提供的清晰赛题指导、Baseline代码以及开源学习资料,让我们能够快速上手,少走弯路。感谢讯飞平台的强大算力支持和便捷的模型训练/部署工具,让即使没有深厚工程背景的同学也能轻松参与大模型精调。感谢社区和队友们的交流与分享,在讨论中碰撞出的灵感往往比独自摸索更高效。
这次比赛不仅让我提升了技术能力,更让我认识到开放协作和实践驱动的学习方式的重要性。
心怀感激,继续前进! 🌟
- 作者:M1zzle
- 链接:http://addtao.com/article/23bc57d9-7fc4-802b-a1d2-e34bd89aba65
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。