解释一下这张图两个人做法的区别以及他们为什么要这么做,当你说出一个英文名词时要附上它的翻译,这张图的...

Создано: 16 июня 2026 г.

Отвечено с использованием GPT-5.5 Thinking от Chat01

Вопрос

image.png

解释一下这张图两个人做法的区别以及他们为什么要这么做,当你说出一个英文名词时要附上它的翻译,这张图的来源是https://www.kaggle.com/competitions/map-charting-student-math-misunderstandings/writeups/3rd-place-solution

Мысль

undefined

Мысль

undefined

Мысль

Explaining the differences in the two pipelines

I’ll use the provided image and pull info from search snippets for clarity. I need to explain the differences between two pipelines: Monsaraida's multi-stage inference and regularization techniques, and Masaya’s approach with joint models, label pruning, and model quantization. I'll cite sources properly as I go.

Thought for 56s

Ответ

这张图本质上是在说:monsaraida(参赛者用户名)走“分类器路线”,Masaya(参赛者用户名)走“生成式选项选择路线”,最后把两种差异很大的模型做集成。 这个比赛的目标是根据学生的数学解释预测潜在误解,官方说明把它描述为用自然语言处理(Natural Language Processing,自然语言处理)和机器学习(Machine Learning,机器学习)来预测学生数学误解。(Kaggle)

对比点monsaraida(参赛者用户名)Masaya(参赛者用户名)
核心思路把问题当成分类任务:模型直接判断属于哪个误解类别把问题当成“从候选答案里选一个”的生成任务
模型形式SequenceClassification(序列分类)Causal Language Model(因果语言模型)
主要模型Qwen3-14B(通义千问3 140亿参数模型)Qwen2.5-32B-Instruct(通义千问2.5 320亿参数指令模型)和 Qwen2.5-72B-Instruct(通义千问2.5 720亿参数指令模型)
微调方式LoRA SFT(低秩适配监督微调)LoRA SFT(低秩适配监督微调)和 QLoRA SFT(量化低秩适配监督微调)
输入设计base(基础提示)+ choices(候选选项)+ hints(提示信息)base(基础提示)+ choices(候选选项)
额外技巧EMA(指数滑动平均)、label smoothing(标签平滑)、R-Drop(随机失活一致性正则化)、AWP(对抗权重扰动)question-wise label pruning(按题目裁剪候选标签)、AutoRound(自动舍入量化工具)、GPTQ(训练后量化方法)
推理策略第一阶段跑全测试集,第二阶段只跑约 50% 测试集重点利用每道题可选标签很少这一结构,直接在裁剪后的候选里选
角色定位稳定、泛化、正统分类模型利用题目结构、候选裁剪和大模型生成能力

monsaraida(参赛者用户名)为什么这么做:
他的方案像一个“强分类器”。用 SequenceClassification(序列分类)直接预测类别,再配合 multi-task(多任务学习),让模型同时学主分类和辅助分类,通常能提高特征表达的稳定性。图里他的输入还加了 hints(提示信息),相当于给模型更多关于题目、选项或误解的上下文;再用 EMA(指数滑动平均)、label smoothing(标签平滑)、R-Drop(随机失活一致性正则化)和 AWP(对抗权重扰动)来减少过拟合、提升交叉验证稳定性。介绍材料里也明确提到这些方法,并把第二阶段设计成只对 50% 测试集推理,以提高效率。(Speaker Deck)

Masaya(参赛者用户名)为什么这么做:
他的方案更像“让大语言模型在少量候选里做选择”。这个比赛有一个很关键的结构:同一个 QuestionId(题目编号)下可能出现的误解标签是有限的,材料里提到每个样本的候选标签大约能裁到 5 到 7 个。因此他用 question-wise label pruning(按题目裁剪候选标签),先把不可能的标签去掉,再让 Causal Language Model(因果语言模型)从剩下的选项里输出答案。这样做的好处是候选空间小、提示更短、标签本身的语义可以放进 token(词元)里,而且对不同题目有不同候选集也比较灵活。(Speaker Deck)

两人的最大区别不是模型大小,而是“问题建模方式”。
monsaraida(参赛者用户名)把它建模成标准分类:输入学生解释,输出类别;Masaya(参赛者用户名)把它建模成候选生成/选择:输入题目和少量候选,让模型选出最合理的标签。前者依赖分类头和训练技巧,后者依赖候选裁剪和语言模型理解标签语义。

为什么最后要 Ensemble(集成):
因为两条路线犯错方式不同。SequenceClassification(序列分类)模型擅长稳定分类,Causal Language Model(因果语言模型)擅长利用候选标签的文字语义和题目结构。把它们 Ensemble(集成)后,错误能互相抵消,所以最终成绩比单个模型更好:图中单模型私榜大多在 0.944 到 0.946 左右,最终集成达到 Private(私榜)0.948、第 3 名,Public(公榜)0.954、第 1 名。(Speaker Deck)

一句话总结:monsaraida(参赛者用户名)追求“分类模型的稳”,Masaya(参赛者用户名)追求“候选裁剪后的大模型选择能力”,他们合并是因为两种思路足够不同,集成后收益明显。

Поделиться этим Q&A