Datawhale AI夏令营：科大讯飞AI大赛（模型蒸馏）

type

status

date

slug

summary

一、赛事理解

Task	学习目标	Task任务说明
Task1	跑通baseline，体验「让AI学会数学推理」	1.精调数学推理模型 2.发布自己的模型
Task2	学习「让AI学会数学推理」的重难点	1.清洗优化数据集 2.对数据集进行推理
Task3	学习并持续实践大模型推理，上分	1.COT范式是什么？ 2.大模型微调的基本原理和方法

1. 知识点提要

数学推理建模：理解题目并生成清晰的解题过程（CoT）

大模型推理：使用DeepSeek模型生成高质量推理数据

LoRA精调：低资源条件下高效训练模型

模型蒸馏：将大模型能力迁移至小模型

平台实操能力：掌握讯飞MaaS平台的数据管理与模型部署流程

综合评估优化：依据准确性、推理质量、效率和模型大小多维优化模型表现

赛题的核心目标，是通过 “模型蒸馏技术” ，把更聪明的“教师模型”（此赛题限定为DeepSeek-R1）的 “数学推理智慧和能力”，通过微调的方式，赋予给“学生模型”（赛题限定了三个Distill模型），让他们也能掌握“数学推理能力”

学生模型限定为：DeepSeek-R1-Distill-Qwen-7b / 14b / 32b

2. 模型蒸馏步骤

清洗 训练集，使训练集的推理更清晰、准确；【一般可能采用人工处理】

使用 训练集 微调 教师模型（限定为DeepSeek-R1系列模型），【让教师模型的数学推理能力更强】

教师模型 对 测试集 进行 批量推理，获得包含完整CoT推理链的数学解题输出微调集；【测试集即为我们需要学生掌握的数学推理能力】

选择学生模型，使用 微调集 进行 LoRA 精调（即微调）【如此，我们便完成了模型蒸馏的所有流程，把教师在测试集上的智慧传授给了学生】

3. 评测维度及得分计算

最终总分为四项子指标加权汇总结果：

AS（答案准确率）：正确答案比例，映射至 0–100；

CQS（CoT推理质量）：推理链逻辑性与合理性；

ES（解题效率）：每条题目推理所用 token 数；

MLS（模型轻量化）：模型整体文件大小。

其中，CQS 与 ES 仅在 AS 正确前提下有效评估（答案错误则得分打折）。

二、解题思考过程

可以将建模过程分为 5 步：

数据准备

清洗官方提供的数据

补充格式统一的公开数学题（可选）

格式为：{“input”: 题目, “output”: 推理过程 + 答案}

教师模型生成推理链数据（CoT）

使用DeepSeek-R1生成高质量思维链数据作为训练目标

蒸馏训练学生模型

选择轻量模型DeepSeek-R1-Distill-Qwen-7b / 14b / 32b（支持LoRA）

使用步骤2中的数据进行模型精调

控制训练方式避免资源浪费（选择LoRA精调）

模型评估与调优

验证模型在测试题上的解答准确性与推理质量

调整蒸馏数据比例、模型结构、训练参数等

模型发布与提交

使用讯飞星辰平台部署模型，获得resourceid

提交用于评测并优化得分（准确率 + 逻辑性 + 效率 + 体积）

三、实践过程

1. 跑通Baseline

Datawhale已提供一个微调数据集。该数据集由教师模型对测试集进行批量推理，获得包含完整CoT推理链的数学解题输出微调集，可直接用于学生模型的蒸馏训练。

在讯飞星辰MaaS平台使用零代码精调服务，选用的基础模型为DeepSeek-R1-Distill-Qwen-7B，精调方式选择LoRA精调，参数配置如下：

点击提交后模型开始训练。待训练完成后发布为服务，得到大模型的ResourceID，即可提交。待评分完成后，得到Baseline的成绩为77分。

2. 上分尝试

总体来说，模型蒸馏的核心在于蒸馏出的文本知识数据集的流程，提分的要点，就是让蒸馏出来的知识，更加优质。

我们主要可以从：

提升教师模型的能力【微调教师模型】

提升调用教师模型推理的效果【Prompt工程】

两大方面入手，一些参考思路如下表所示：

2.1 增加微调数据

鉴于Datawhale提供的微调数据集只有两百条，故可通过扩大数据集的方式提升学生模型的能力（可以理解为教师把更多在测试集上的智慧传授给了学生）。使用讯飞星辰MaaS平台的批量推理服务，输入测试集（400条）由DeepSeek-R1教师模型得到推理链数据（400条）。

需要注意的是，得到的400条推理链数据中，有部分数据“output”字段为空，应删除这些数据，再使用推理链数据进行模型精调。精调过程与Baseline大致相同，故不再赘述。待训练完成后发布为服务，提交ResourceID，待评分完成后得到成绩为84分。

2.2 Prompt工程

Prompt是一个简短的文本输入，用于引导AI模型生成特定的回答或执行特定任务。换句话说，Prompt是你与AI模型沟通的方式。一个好的Prompt可以让AI更准确地理解你的需求，从而给出更有用的回答。通过对数据进行Prompt工程，可以使教师模型生成更高质量的推理结果，提升对学生模型的指导作用。

例如，将测试集的input改造成如下格式：

将修改后的测试集由DeepSeek-R1教师模型得到推理链数据，再进行模型精调。待评分完成后得到成绩为84分。

回顾评测指标，最终总分为四项子指标加权汇总结果：

AS（答案准确率）：正确答案比例，映射至 0–100；

CQS（CoT推理质量）：推理链逻辑性与合理性；

ES（解题效率）：每条题目推理所用 token 数；

MLS（模型轻量化）：模型整体文件大小。

经过Prompt工程后得到的分数并没有提升，可能的原因是更多的输入（字数）使得每条题目推理所用token数增加，从而解题效率降低。

2.3 参数配置

调整关键训练参数可能显著影响模型性能。在讯飞星辰MaaS平台，可支持配置的微调参数可以分成下面三个大类。

经实验后，最终的参数调整为

参数名称	调整	说明
学习率	调整为8e-5	使更新更加稳定
训练次数	减少为3	避免过拟合
LoRA随机丢弃	降低为0.01	减少随机性
LoRA缩放系数	提高为32	增强适配器作用
LoRA秩	提高为16	保留更多信息

参数调整后进行微调，分数提升至85分。

四、心得体会与展望

参加本次「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」，我深刻体会到了大模型知识蒸馏的复杂性和优化策略的微妙平衡。从最初的Baseline跑通，到逐步优化模型性能，再到最终取得较好的成绩，整个过程让我对模型蒸馏、Prompt工程、参数调优等关键技术有了更深入的理解。

1. 心得体会

数据质量决定模型上限

在模型蒸馏任务中，教师模型的输出质量直接影响学生模型的学习效果。最初，我们直接使用官方提供的200条数据训练，发现模型推理能力有限。后来，通过扩充数据集（400条教师模型生成的CoT数据）并清洗无效样本，分数得到显著提高。在AI模型训练中，数据是“燃料”，而高质量的数据才是“高能燃料”。

模型蒸馏的核心是“有效知识迁移”

蒸馏的目标是让“学生模型”学会“教师模型”的推理能力，但并非所有知识都能完美迁移。实验发现：

① Prompt工程影响推理风格：在输入问题前加入“请逐步推理”等引导词，能提升CoT的清晰度，但过度增加Prompt长度会导致ES（解题效率）下降。

② LoRA微调需要平衡Rank和过拟合：提高LoRA的Rank（如从8调整到16）能增强模型表达能力，但过高的Rank会让小模型“学偏”，反而降低泛化能力。

蒸馏不是简单的“复制粘贴”，而是“因材施教”，要根据学生模型的能力调整教学（训练）策略。

参数调优是一门“实验艺术”

在优化过程中，我尝试了不同的超参数组合，发现较高的LR（如3e-4）能快速收敛，但可能错过精细优化；较低的LR（如5e-5）训练更稳定，但需要更长时间。调参就像“炒菜”，火候（学习率）、时间（Epochs）、配料（Batch Size）都要恰到好处，才能做出好模型。

比赛评估指标的多目标博弈

最终得分由AS、CQS、ES、MLS四个指标加权计算，优化时需要权衡。

AS和CQS通常正相关：更好的推理逻辑（CQS）一般会带来更高的准确率（AS）。

但ES和MLS可能与其他指标冲突：

① 更详细的推理（高CQS）会增加token数（降低ES）。

② 更大的模型（如32B）可能提升AS，但因MLS权重惩罚总分反降。

2. 展望

通过这次比赛，我不仅掌握了模型蒸馏的核心技术，还学会了如何系统性地优化AI模型。未来，我希望进一步探索：

教师模型增强：先用数学语料进一步预训练教师模型，再生成更优质的CoT数据。

动态蒸馏策略：根据题目难度调整蒸馏强度（如简单题少训练，难题多训练）。

多模型融合：结合7B的效率和32B的精度，探索模型集成方案。

最后，我要特别感谢Datawhale和讯飞星辰MaaS平台提供这样一个高质量的竞赛舞台，让我们能够深入实践大模型蒸馏技术，并在真实场景中验证优化思路。感谢Datawhale提供的清晰赛题指导、Baseline代码以及开源学习资料，让我们能够快速上手，少走弯路。感谢讯飞平台的强大算力支持和便捷的模型训练/部署工具，让即使没有深厚工程背景的同学也能轻松参与大模型精调。感谢社区和队友们的交流与分享，在讨论中碰撞出的灵感往往比独自摸索更高效。

这次比赛不仅让我提升了技术能力，更让我认识到开放协作和实践驱动的学习方式的重要性。

心怀感激，继续前进！ 🌟