这项研究来自南加州大学(University of Southern California)的三位研究人员,论文于2026年6月发表,ArXiv编号为2606.05152。有兴趣深入了解的读者可以通过该编号在ArXiv平台查询完整论文。
当下,人工智能领域流行着一种训练方法:让模型生成很多答案,再告诉它哪些是对的、哪些是错的,通过不断试错来进步。这就像是一个学生反复做题,只有最后一道判断题告诉他"全对"或"全错",却从不告诉他哪一步推理出了问题。这种方式在很多场景下效果不错,但也存在明显的局限。
南加州大学的研究团队发现,现有的"强化学习"训练方式就像一个只会打分、从不给详细批语的老师:每次都等学生把整道题做完,只给一个最终分数,而不告诉学生哪句话说错了、哪步推理跑偏了。在数学解题、代码编写或科学推理这些领域,这种粗放式的反馈导致了一个令人头疼的问题——AI很难知道它是因为第三步推理出错而最终答错的,还是因为第一步就选错了方向。
正是为了解决这个问题,研究团队提出了一种全新的训练框架,命名为**DistIL**(Distributional Imitation Learning,分布式模仿学习),并通过严格的数学证明和大量实验验证了它的有效性。这篇文章将带你完整理解这个研究背后的故事——从"老师说了算"的传统方式,到"聪明模仿"带来的真正进步。
一、为什么现在的AI训练方式像个"粗心批卷老师"
要理解这项研究,先得明白AI是怎么被训练出来的。目前最主流的方式叫做"强化学习"(Reinforcement Learning),或者更具体地说,叫做"基于可验证奖励的强化学习"(RLVR)。
可以把这个过程想象成这样:AI学生每次解一道数学题,写出一整篇解答过程,然后有一个评分系统检查最终答案对不对,给出"1分(正确)"或"0分(错误)"。这个分数会被均匀地"摊"到整篇解答的每一个字上,无论哪句话实际上贡献了多少。
这里暗藏着一个巨大的问题。假设AI写了一百个字的解题过程,其中第八十个字写错了导致最终答案出错,但评分系统只会告诉整篇文章"这次错了"。于是第一个字到第七十九个字都收到了同样的"错误"信号,尽管它们可能写得非常好。这种"一竿子打翻一船人"的反馈方式,在研究者的语言里叫做"信用分配困难"——系统搞不清楚到底应该把功劳或过失归给哪一步。
还有另一个问题:当AI每次都全对或全错时,训练系统就彻底失去方向感了。全对意味着没什么可学的,全错意味着不知道从哪里改起。这在很难的题目上尤其棘手——AI从未做对过一道题,那RLVR方法就永远没有正向反馈可以利用。
好消息是,现实中往往存在比"对或错"更丰富的信息。代码运行后会产生报错信息,告诉你哪里语法出了问题;数学题有参考解答可以逐步对照;科学问题可以有人工批注指出推理漏洞。这些"富反馈"信息远比一个简单的0/1信号有价值,但如何有效利用它们,一直是个难题。
于是,研究界开始探索一种叫做"自蒸馏"的方法:让同一个AI模型在看到反馈信息(比如正确答案)后扮演"老师",再让没有看到反馈信息的同一个模型扮演"学生",然后让学生去模仿老师。这就好比一个人分饰两角——左手看着答案解题,右手在没看答案的情况下尝试达到同样的效果。
两种典型的自蒸馏方法由此出现:SDPO(使用"反向KL散度"作为衡量老师和学生差距的尺子)和OPSD(使用"詹森-香农散度"作为那把尺子)。它们的共同思路是:先让学生自己做题,然后测量学生的回答和看过答案的老师的回答之间的差距,再根据这个差距来调整学生的学习方向。
然而,南加州大学的研究团队仔细分析后发现,这两种方法存在两个根本性的缺陷——即便理论上老师比学生答得更好,这些方法也可能把学生引向错误的方向。
二、看似合理却暗藏陷阱:现有方法的两大致命问题
第一个问题涉及"学习方向"。研究团队通过数学证明揭示了一个反直觉的事实:即使老师的平均成绩比学生高,使用反向KL散度或詹森-香农散度来缩小师生差距,也可能导致学生在某些题目上反而退步,甚至提高了做错题的概率。
这个结论用一个具体例子来理解会更清晰。假设有三种答题策略:优秀策略(得分1)、平庸策略(得分0.5)和糟糕策略(得分0)。老师偏爱优秀策略,但比学生更少使用平庸策略。这时,反向KL散度更新会认为学生对平庸策略"过度依赖",于是努力纠正这一点。但纠正的过程中,由于概率必须归一(所有策略的概率之和等于1),减少对平庸策略的依赖可能导致糟糕策略的概率悄悄上升。这就像在调整三个水龙头的流量时,把中间那个水龙头关小了,结果反而让最差的那个水龙头流量变大了。
研究团队不仅从理论上证明了这种情况存在,还构造了一个具体的三臂赌博机实例来验证:老师在平均得分上比学生高出一定差距,但经过反向KL梯度更新后,学生的预期得分反而下降了。这说明,"老师比学生好"并不足以保证"向老师学习就会变好"——学习的方向必须本身就与奖励对齐。
第二个问题涉及"信用归属"。SDPO和OPSD在计算梯度时,用了一种数学上的简化手段:他们只看当前那个词语(token)上老师和学生的差距,却忽略了"选择这个词语会如何影响后续所有步骤中的师生差距"。
可以用一个走迷宫的比喻来理解。你在迷宫的第一个路口做了选择,这个选择决定了你后来会遇到哪些岔路。如果你走了左边,你后来可能会遇到一个很难的岔路,在那里老师的选择和你的选择差距很大。但如果你走了右边,就不会遇到那个难的岔路,师生之间也没什么分歧。那么,第一个路口的选择是否重要?当然重要,因为它决定了后续差距的出现。然而,SDPO和OPSD的简化方法在对第一个路口的选择进行评分时,完全没有考虑到这个路口的选择会带来的"未来后果"——它们只看"此时此地"的差距,忘记了"前因后果"。
研究团队同样通过数学证明展示了这个问题的后果:在一个简单的两步决策场景中,采用局部信用分配方法最终学到的策略,预期得分只有1/3;而采用完整的序列级信用分配,可以学到预期得分为2/5的更好策略。看起来差距不大,但这只是一个极简化的模型——在真实的复杂推理场景中,这种差距会被放大很多倍。
这两个问题合在一起,解释了为什么现有的自蒸馏方法在很多场景下表现不稳定,甚至会在训练到一半时突然开始退步。研究团队在实验中也观察到了这种现象:SDPO在生物学推理任务上,训练进行到约100步时,最佳表现突然大幅下滑。
三、DistIL:用"前向交叉熵"打造更聪明的模仿学习
针对上述两个问题,南加州大学的团队设计了DistIL,其核心思想来自一个经典的模仿学习框架——DAgger(Dataset Aggregation)。
DAgger的原始思想是:让学生自己走路,遇到每个状态时就问专家"在这种情况下,你会怎么做?"然后让学生向专家看齐。关键是,学生遇到的是自己走出来的路上的状态,而不是专家走出来的路上的状态。这很重要,因为学生和专家的行为习惯不同,他们遇到的场景也会不同。如果只在专家遇到的场景上学习,等学生真的上路时,可能会遇到很多从未训练过的情况。
DistIL把这个思想"分布化"了:不是让专家在某个状态给出一个具体行动,而是给出整个行动的概率分布——专家不说"你应该说这个词",而是说"在这种情况下,各个词语的概率应该是这样的"。然后学生用一种叫做"前向交叉熵"的目标函数来向专家分布靠拢。
为什么是"前向交叉熵"而不是反向KL散度?这里有个关键区别。前向交叉熵(Forward Cross-Entropy)的计算方式是:按照老师对各个选项的重视程度,加权来衡量学生的表现——老师觉得重要的选项,学生没做好就扣更多分。反向KL散度则是反过来:按照学生自己对各个选项的重视程度来衡量差距——学生自己觉得重要的选项,和老师差距大就扣分。
这个区别导致了截然不同的学习方向。前向交叉熵迫使学生向老师的分布移动,使更新方向天然地与奖励改进对齐——因为老师比学生好,所以往老师的方向走就是在往更高奖励的方向走。反向KL则受制于学生自身对选项重视程度的扭曲,可能导致学习方向偏离奖励改进的方向。
DistIL的另一个创新在于它如何计算梯度。研究团队没有采用只看"此时此地"的局部梯度,而是完整地计算了整个序列的梯度。这意味着,第一个词语上的更新,会同时考虑"如果我在这里选了这个词,后续所有步骤中老师和学生之间的差距会有多大"。在数学形式上,完整梯度分成了两部分:一部分是"局部信用分配",即当前词语上老师和学生的直接差异;另一部分是"未来信用分配",即当前词语的选择对后续所有步骤师生差距的贡献。这两部分合在一起,才构成了完整的、能够正确评价每一步决策价值的学习信号。
在实际操作上,DistIL还有一个实用优势:它不需要能访问老师的具体概率值,只需要能从老师那里采样——也就是说,即使老师是一个完全黑箱的外部系统(比如人类专家或者另一个不开源的模型),DistIL同样可以工作。相比之下,SDPO要求能获取老师的概率输出,这在实际应用中往往是个限制。
四、理论保证:三重数学承诺
DistIL不仅在直觉上更合理,研究团队还从三个不同角度给出了严格的数学证明,确保它在理论上也是可靠的。
第一重保证是"单调改进"。在一定的条件下(具体是说,老师和学生的差距在局部可以被学生的模型类所表达),DistIL的每一步自然梯度更新都能保证学生的预期得分提高。更精确地说,每次更新后的得分提升量近似等于"老师比学生好多少"乘以"学习率"。这意味着只要老师比学生强,每一步更新都是向好的方向走,不会出现反向KL那种"老师更好却把学生越训越差"的情况。
第二重保证是"遗憾界限"。研究团队证明,在一定假设下(主要是老师和学生的策略之间覆盖关系有限),DistIL经过n轮训练后返回的策略,与老师策略的差距会以大约n的负四分之一次方的速度缩小(当老师策略本身有较高随机性时),或者以n的负二分之一次方的速度缩小(当老师策略接近确定性时)。用更通俗的语言说:训练轮数越多,学生就越接近老师,而且这个收敛是有数学保证的,而不只是实验中观察到的现象。遗憾界限的大小还受到两个关键参数的影响:一是老师策略的"随机性程度"(老师对同一道题会给出差异多大的解法),二是"可恢复性"(偏离老师一步之后还能不能追上来)。老师越确定、环境越宽容,学习就越容易。
第三重保证是"成功概率下界"。研究团队发现,最小化前向交叉熵,实际上在最大化一个被老师成功概率加权过的学生成功对数概率的下界。这个听起来拗口的结论,有一个非常直接的实践意义:前向交叉熵的最小化,天然地更关注那些老师能够做对的题目,并努力让学生在那些题目上的成功概率提高。这与近年来一些关于"最大似然强化学习"的研究结论相呼应——最大化成功轨迹的对数似然,能够改善Pass@N(在N次尝试中至少有一次成功的概率)这个指标,对任意N都成立。反向KL散度则没有这个性质——研究团队也给出了反例证明这一点。
五、实验验证:在三类场景中全面超越对手
理论再漂亮,也需要实验来说话。研究团队在三类截然不同的场景中测试了DistIL,每类场景都代表了不同的反馈丰富程度。
第一类场景是"科学推理",使用了SciKnowEval这个数据集,包含大学水平的化学、物理、生物和材料科学题目。在这个场景中,反馈相对稀疏——没有额外的解题提示,只有模型自己做对的那些答案可以用作参考。研究团队在Qwen3-8B和OLMo3-7B-Instruct两个模型上分别测试,将DistIL与SDPO、在线GRPO和离线GRPO进行比较,并以墙钟时间(实际训练耗时)而不是训练步数来衡量效率。
结果显示,DistIL在绝大多数列(即不同学科和不同训练时长的组合)上取得了最好的Avg@16分数(即从16次尝试中取平均正确率)。最大的提升出现在物理和化学领域:Qwen3-8B上,物理成绩领先第二名8.1个百分点;OLMo3上,物理成绩领先9.6个百分点。从训练过程图像来看,DistIL大约在训练20步时就开始领先,并且这种领先基本保持稳定,而SDPO则在训练后期出现了明显的震荡甚至下滑。
第二类场景是"编程",使用了LiveCodeBench(LCBv6),一个持续更新的代码竞赛题库。在这个场景中,反馈非常丰富:代码可以被实际运行,执行日志(报错信息、测试结果等)作为"富反馈"被注入到老师策略的输入中。研究团队初始化了Qwen3-8B模型,并以训练第80步的检查点进行评估。
DistIL的Accuracy/Avg@16达到0.656,Score/Avg@16达到0.482,优于SDPO的0.643和0.467,以及GRPO的0.600和0.405。GRPO与其他方法的巨大差距(约5个百分点)直接来自于它根本无法利用执行日志这类富反馈信息——它只能用最终的"通过/不通过"信号,而这个信号对于很多难题来说过于稀疏。在所有k值(2、4、8、16)的Best@k和Maj@k指标上,DistIL都保持了一致的优势,而且在小k值时优势更为明显。
第三类场景是"极难数学题",这是对现有方法最严酷的考验。研究团队构建了一个包含738道极难数学题的训练集,这些题目的特点是:即使让Qwen3-4B-Instruct尝试512次,也从未做对过。这意味着GRPO在这里完全失效——因为模型从未给出正确答案,强化学习的奖励信号永远是零,无从学习。
在这个场景中,研究团队提供了"正确解答"作为富反馈,让老师策略能够看到标准答案并据此生成高质量的推理过程。对比方法包括OPSD(使用前向KL散度)、SDPO(反向KL散度)、GRPO和SFT(直接监督微调)。
结果完全验证了预期:GRPO与基础模型得分完全相同,确认了在零成功率场景下强化学习的彻底失效。SFT在大多数测试集上得分低于基础模型,说明简单地模仿解答文本导致了过拟合而非真正的推理能力提升。DistIL在两个模型规模上都取得了最好的结果。在AIME25(美国数学邀请赛2025年题目)的Avg@16指标上,Qwen3-4B上DistIL领先第二名3.8个百分点,Qwen3-8B上领先1.4个百分点。
六、消融实验:每一个设计选择都有其道理
为了进一步验证DistIL各个设计组件的必要性,研究团队进行了两组消融实验。
第一组比较了"完整信用分配"和"局部信用分配"。研究团队构造了一个叫做"CE基线"的对比方法——它使用相同的前向交叉熵目标函数,但只保留局部梯度,去掉了未来信用分配项,类似于SDPO和OPSD处理梯度的方式。在材料科学领域的实验中,DistIL(完整信用分配)全程稳定优于CE基线(局部信用分配),而且CE基线的训练曲线方差更大,表现更不稳定。这直接印证了理论证明中关于"局部信用分配会导致次优策略"的结论。
第二组比较了使用不同数量的老师词语概率进行蒸馏的效果。研究团队测试了Top-1(只用老师概率最高的那个词)、Top-100(用概率最高的100个词)和Full(全词汇表)三种设置,在物理领域进行对比。结果显示:Top-1表现最差,因为只有一个词的信息太少,训练信号过于稀疏;Full蒸馏虽然竞争力更强,但引入了大量低概率词语的噪声,略微拖累了性能;Top-100在最终性能和训练稳定性上都最优。这个发现也解释了为什么论文中所有正式实验都使用K=100的设置。
七、说到底,这项研究意味着什么
回到最开始的问题:为什么AI训练方式很重要,为什么要花这么大精力去改进它?
从宏观角度看,这项研究触及了AI能力提升的一个核心机制——如何利用比"对错判断"更丰富的信息来加速学习。随着AI系统越来越多地被部署在复杂推理场景中,纯靠最终结果判断的训练方式逐渐遭遇瓶颈,尤其是在那些模型从来就做不对的超难题目上,传统强化学习方法彻底哑火了。DistIL提供的思路——把富反馈转化为老师策略,然后用正确的方向和完整的信用分配来模仿——打开了在困难场景中持续改进AI的大门。
从具体影响看,这项研究对三类实际应用有直接意义。在代码辅助工具领域,执行报错日志是天然的富反馈,DistIL框架可以帮助AI编程助手更快地从自己的错误中学习。在科学研究辅助领域,专家批注或参考解答可以作为老师信号,让AI在专业知识领域更快速地提升水平。在教育领域,一个AI教学系统如果能利用学生的详细解题过程(而不只是最终答案对不对)来改进自身,理论上能提供更有针对性的辅导。
当然,这项研究也有它的前提假设和局限。理论保证依赖于"老师确实比学生好"这个条件——如果富反馈质量很差,或者老师策略本身不靠谱,那么向它靠拢只会越学越糟。此外,未来信用分配项的完整计算会带来额外的计算开销,如何在大规模系统中高效实现,还需要进一步的工程工作。
归根结底,这项研究用一个相当优雅的方式解决了"向老师学习却可能越学越差"这个反直觉难题:关键不在于用什么尺子衡量师生差距,而在于学习的方向本身是否与变好对齐,以及是否完整地追溯了每一个早期决策对后续结果的影响。前向交叉熵提供了对齐方向,完整梯度提供了完整追溯,两者结合,才让"模仿学习"真正变得聪明了。
有意思的是,这个道理在人类学习中其实早就被认知科学研究所印证——好的学生不只是模仿老师的行为,他们还会理解"为什么这样做能在后续步骤中创造更好的条件"。DistIL在AI训练领域实现了类似的机制,这或许才是它最值得关注的地方。
Q&A
Q1:DistIL和SDPO有什么本质区别?
A:DistIL用"前向交叉熵"替代了SDPO的"反向KL散度"来衡量老师和学生的差距。前向交叉熵按老师的重视程度加权评估学生,学习方向天然朝向奖励提升;反向KL按学生的重视程度加权,可能导致更新方向偏离奖励改进目标,甚至在老师更好的情况下让学生退步。此外,DistIL还使用完整序列级梯度而非局部梯度,能追溯早期决策对后续步骤的影响。
Q2:DistIL在什么情况下无法正常工作?
A:DistIL依赖"老师策略比学生策略更优"这个前提。如果提供给老师的富反馈信息质量很差(比如错误的参考答案、误导性的报错信息),老师策略本身就不可靠,向它靠拢只会适得其反。此外,理论保证还要求老师和学生策略之间存在合理的覆盖关系,即老师关注的区域学生也有一定的概率涉及,如果两者差距过大则效果会打折扣。
Q3:DistIL为什么能改善Pass@N这个指标?
A:研究团队通过数学证明,最小化前向交叉熵等价于最大化一个被老师成功概率加权的学生成功对数概率的下界。简单说,前向交叉熵会自动把更多"注意力"放在老师能做对的题目上,努力提升学生在这些题目上的成功概率。根据最大似然强化学习的相关研究,这种最大化成功轨迹似然的方式能系统性地提升Pass@N指标,对任意采样次数N都成立。