更长的思维并不意味着更强的推理表现,强化学

Machine Heart Report编辑:Panda今天早些时候,著名的研究员和技术作家Sebastian Raschka发布了一条推文,该推文解释了一项研究刺激Wand AI的增强的研究,研究了理解模型开发的原因。他写道:“众所周知,理解模型通常会形成更长的响应,这增加了计算成本。今天,这篇新论文表明,这一行为源于教育强化的过程,而不是更高的准确性真正需要更长的回答,我认为这可以解释该课程研究以研究课程研究课程的课程,以研究课程,以研究课程,以研究课程,以研究课程。研究课程的研究,以研究课程的研究,以研究课程的研究,以研究课程的研究,以研究课程的研究S导致顿悟妈妈,更长的思考。也就是说:“也就是说,如果模型获得负奖励(即错误的答案),那么PPO背后的数学原理将导致更长的响应,以便每个令牌的平均损失较小。因此,模型会间接地获得鼓励,使其更长,使其更长。即使这些额外的代币并没有真正帮助解决问题的损失?使损失损失降低(即,即使模型仍然得到错误的答案。因此,该模型已经了解到:“即使较长的答案也没有帮助准确性,也可以降低惩罚。有限的数据:团队表明实验表明,强化研究的训练后训练阶段即使在很小的数据集中也是有效的。此结果与当前的文学训练相反。可以在资源造成的方案中制作。一些研究人员认为,这项研究表明了加强的共同问题:培训的目的是获得奖励,而不是解决问题。让我们详细了解本文。纸张标题:通过加强研究研究的简短推理:https://arxiv.org/abs/2504.05185响应更好的性能,下表显示了使用不同模型在不同基准上正确或错误地回答不同基准时的平均响应长度。蓝色小词代表计算平均值的样本数量。从这里我们可以看到更长的响应可能不一定会带来更好的性能。因此,问题是:LLM何时接受RL训练会增加响应的长度?为什么是原因?每个推理问题实际上都是MDP,每个推理问题(例如,数学问题)都会发展出马尔可夫(MDP)决策过程 - 制定过程,而不仅仅是静态样本。 MDP由状态空间组成,动作空间A,转换T,奖励功能R,初步状态分布P_0和折现因子γ。在语言建模中,每个令牌位置中的状态都由所有令牌(或它们的宝石)组成,直至k,并包括k,还包括上下文信息(例如a语句probema)。动作空间对应于可能令牌的词汇。更改的操作确定是将新令牌附加到续集上。除最后一步以外的所有步骤的奖励奖励是零。在最后一步中,根据最终答案和格式评估准确性。初始状态取决于直接词,该单词可能包含语句和说明的说明(例如,“解决步骤 - 阶段并将最终答案放在框中”)。加强研究的目的是最大程度地提高预期回报,定义为γ折现后未来奖励的总和。在LLM训练后,通常将γ设置为1。最终的答案只需要一个基本模型,偶尔可以得到正确的答案。在练习很多问题时,MDP一般由许多初始状态和更新的奖励功能组成。添加更多问题将更改P_0和R,但要维护基本的MDP结构。它引入了两个重要的考虑因素:(1)更大的问题集会增加了MDP的复杂性,但它可能使该技术在一般一般中学到了更高的能力。 。过度拟合是管理研究的问题,因为该模型纪念特定的示例而不是调节。相比之下,在线增强的研究不会受到此问题的影响。与依靠静态培训数据的管理研究不同,在线加强研究继续提高其功能。此外,在线加强研究不仅仅是模仿预定的解决方案。它还积极探索各种理解和增强可能拥有狂热的人的方法t答案。两种关键机制有助于这种稳定性:(1)采样程序(例如非零温度)将确保生成的响应是可变的; )它解释了为什么在小小的问题范围内进行加强研究的培训仍然有效。该小组说,没有人报告说他以前已经很强大,已经对非常小的数据集进行了化学研究培训,这也是这项研究的贡献之一。除了考虑数据规模外,还应强调,教育强化的唯一目的是减少损失,这相当于最大化预期的回报。从这个角度来看,在教育培训期间的响应时间长度的任何重大变化都必须通过失去损失而不是模型的自然倾向来鼓励。为了进一步分析这一点,团队使用近端优化AP进行了强化研究培训基于DeepSeek-R1-Distill-Qwen-1.5b基本模型的ProACH(PPO)算法。培训数据是从奥林匹亚式培训数据集中选择的四个问题。专门选择这些问题的原因是,即使执行了广泛的采样,主要模型也不会解决这些问题,从而导致终端奖励持续-0.5。对于上下文大小的限制为20K令牌,Coponan计划与响应的长度相比,计划损失的图表(见图1)。结果清楚地表明,响应的长度与损失之间存在很强的相关性:随着响应的长度的增加,损失继续减少。这直接证明了损失的最小化(而不是模型产生更长响应的自然趋势)是增加响应时间长度的主要驱动力。该团队还解释了PPO从数学角度来看对响应时间的影响。请参阅DE的原始论文尾巴。两阶段的学习方法团队分析具有几个关键点。当受到非常困难的问题的培训时,响应的长度往往会上升,因为PPO更有可能受到PPO的青睐,因为AOF这些模型很难获得积极的回报。当在偶尔解决问题中接受训练时,响应的长度预计会很短。在重大训练情况下,响应长度的动态将非常复杂,并且受到基本问题的困难的影响。该团队认为,由于大多数问题至少偶尔解决,因此平均响应长度最终将减少。值得注意的是,当前对团队的检查不适用于GRPO,并且对此类方法的准确审查仍将在以后的研究中保留。但是,由于简单性和更高准确性之间的关系,团队认为,如果培训持续足够多,这种增长可能会阻止D开始逆转。如果数据集包含许多无法克服的证明,那么从“较长的响应的鼓励”过渡,“鼓励简单”可能会延迟且昂贵。为了解决这个问题,团队提出了一种新的方法:通过随后的增强培训阶段强迫简单性,该培训使用有时会解决问题的数据集。因此,可以获得两个增强研究培训的两个阶段:在第一阶段,该模型接受了高脚踏型问题的培训。此阶段的目的是增强解决模型问题的问题,并且由于PPO主要是负奖励,这激发了模型产生更长的响应,因此预计响应的时间将增加。值得注意的是,第一阶段也可以被视为对现有理解模型的增强的研究。在第二阶段,训练继续使用非零P_A(偶尔解决)。这个阶段可以提高在维护甚至提高准确性的同时简单。值得注意的是,可以看出,它可以显着提高模型的稳定性以降低温度值 - 即使采样量有限,也可以确保出色的性能。从对MDP的洞察力,该团队已经获得了一个基本的观点:即使在问题上也有一个小问题,有效的教育培训也可以实现,尽管这可能会降低能力。尤其重要的是要指出,在训练的第二阶段,该模型已经具有一般的功能,即使只有一个小数据集仅包含Kauntin,也可以使用PPO。实验结果该团队还通过实验测试了新建议的增强研究的两个阶段。难度如何影响接触响应长度以响应图片2的问题提供的问题提供了响应长度的准确性和变化G步。可以在所有问题集中看到它,提高准确性与响应时间长度的短时相一致 - 表明随着模型的准确性的上升,其响应时间也缩短了。另外,对于更简单的问题集,响应的长度更快。最后,对于最困难的数据集,在很少解决问题的同时增加了响应的长度。响应长度的减小图3显示了在各种测试数据集中使用训练步骤(AIME 2024,AMC 2023和MATH-500)中训练步骤的训练后1.5B和7B thosemodel的响应的准确性和长度。可以看出,新建议的刺激性研究训练的两个阶段将显着降低响应的长度,同时保持稳定的精度。右图显示的MMLU_STEM中的结果表明,仅使用了8个示例,加固研究后的训练也可能会提高准确性。提高性能和稳定泰。先前的实验结果证明,进一步的研究训练可能会缩短响应的长度,同时保持准确性。团队进一步研究并发现进一步加强研究培训也可以提高模型的稳定性和性能。为了评估模型的稳定性,团队审查了对温度设置敏感的毒品。将温度设置为零将显着降低识别模型(例如R1)的准确性。但是,诸如Pass@1之类的标准指标依赖于非零温度下的许多样本,这通常掩盖了小型数据集中加强研究中院长培训的好处。该团队使用0和0.6的温度值进行实验,结果显示在表3中。可以看出,当温度设置为0时,经过训练的模型训练的柱子的性能优于基线模型,这表明后室模型更稳定C已遵守基线模型。该小组还表明,在有限的样本中进一步的加强研究培训可以显着提高准确性。这种效果取决于先前在类似(甚至相同)的问题中进行的研究水平。如果该模型进行了许多强化练习,则更难提高准确性可能会更加困难。为了探讨这一点,该团队使用了基于QWEN-MATH-V2.5的在线加固研究,而培训样本是Math DataTet的4个示例。与R1不同,该模型以前没有接受过强化研究的培训,而仅接受培训以使用大量的数学数据来完成令牌。结果显示在表4中。如您所见,改进是惊人的 - 令人惊讶!在1.5B型号中,最高30%。它表明,即使只有4个问题用于增强后的研究培训,可以实现准确性的显着提高,尤其是在未经培训之前未经培训以进行培训以使研究的研究研究研究。参考链接https://x.com/rasbt/status/1911494805101986135