NVIDIA宣布RL扩展的魔力!双重训练步骤=推理能力

网页设计 365bet官网 浏览

小编:加强(RL)是研究语言模型能力演变的“引擎”,还是记住问题更加困难并以不同的方式回答?学习这个问题

加强(RL)是研究语言模型能力演变的“引擎”,还是记住问题更加困难并以不同的方式回答?学术界已经争论了这个问题很长一段时间:RL可以允许模型学习新的推理技能,还是可以改善卓越呼吁现有知识的知识?以前的大多数研究都变得悲观:它认为RL带来的好处是有限的,有时甚至加剧了该模型的“同质性”并失去了差异。但是,这项来自NVIDIA的研究教导说,这种现象的主要原因是数学和编程等活动在基础培训数据中极为显示,而RL培训措施不足。纸的标题:prorl:长期的强化扩展了大语言模型中推理的边界链接:https://arxiv.org/pdf/2505.24864prorl在这里!长期培训=推理的质量变化! NVIDIA团队提出的PRORL的框架(长期存在的研究)大大增加了从传统道路脚本的RL训练措施的数量,最多将超过2,000个步骤提高,从而在小型模型中开放了大潜力。结果令人惊讶:PRORL模型无法做到的逻辑难题,Prorl模型的PASS@K可以达到100%的索引创造力,并且该模型可以主动产生解决问题的新问题,而不是“回答”,而是真正的“打开”!这一突破来自对Pamapigay的稳定和长期研究。但是,长期的RL训练并不容易,并且容易出现熵,性能冲击甚至“破坏性”。直到今天,该团队已经建立了完整的技术组合:SARI -Able -Veriffiffiffer奖励介绍了许多领域的数据,例如数学,编程,科学问题和答案(STEM),逻辑难题和指导合规性。这些任务具有可理用的可验证正确的ANSWERS为RL培训提供可靠和客观的管理信号,并且不再依靠“容易被欺骗”的奖励模型。改善算法:GRPO + DAW的组合,基于小组的相对策略优化),它结合了解耦的剪辑和动态采样)密钥解耦剪辑,以防止策略更新的丢失以及动态采样(动态抽样)以滤除无效的样品,从而使无效的样品“太容易”或“不太容易”或不提高培训效率。 KL正则化 +定期策略与一些常规的DE-KL技能相反,本文发现KL的罚款是稳定的咨询键。同时,引入了参考策略重置机制:当KL强劲上升或绩效下降时,参考策略将重置为当前复制模型,优化器将重置以进行“ I -Restart”培训。这种简单的机制有效地破坏了训练的丧失,并使模型继续开发lop。基于PRORL技术,该团队培训了Nemotron-Research-Reasing-Qwen-1.5B,显示出惊人的性能优势:它在SA数学的任务中提高了14.7%,符合7B模型,该模型可导致DeepCoder-1.5b-1.5b至6.5%的生成守则的逻辑推理,而准确的准确性率高于54.8%。 PRORL可以真正扩展模型的最新能力能力,如果RL可以扩大模型功能的界限,则会变得有争议。在文章中,作者致力于评估RL是否可以扩大能力的界限,并且发现长期稳定的RL可以真正改善模型功能。围绕该主题,本文主要显示了发现的三个方面:RL模型可以解决基本模型无论如何都无法回答的问题,甚至通过@K 100%通过。这不是随机的冲击,而是新能力的诞生。即兴之间有负面联系通过研究加固和主要模型的初始性能所带来的。在基本模型表现较弱的活动中(较低初始通行@k),RL显示出强烈的“边界扩展”。在诸如数学和代码之类的强大领域(这些任务的“创意指数”较低),Prorl扩展边框非常有限。对于较小的升级任务到图中的“减少区域”,作者观察到了一个共同的功能:这些任务完全涵盖了预训练数据,缺乏进一步扩展的房间,因此RL提供的好处是有限的。该模型不仅是“正确的回答”,而且是“思考新事物”。作者使用创造力指数来评估Modelo产生的问题解决路径的数量,并发现训练度量越长,模型越强,“从训练前的语料库中反弹”就越强。解决问题的方法不再限于模板任务,而是显示较丰富和更多的CRE实质性推理技术。总结NVIDIA的这项研究使我们对True RL潜力的新了解不仅是优化技术,而且还扩大了模型模型的界限。通过Prorl,我们首先看到“小型模型”也可以在复杂的理解任务中“面临困难”,甚至比大型模型更重要。这种开发不依赖更多的数据或更大的模型,而是更长,更稳定,更智能的培训过程。将来,如果您希望具有强大理解能力,低成本和强大的一般能力的小语言模型,那么Prorl可以是关键。

当前网址:https://www.jling-tech.com//tutorials/web/2025/0606/974.html

 
你可能喜欢的: