训练步数翻倍=推理能力质变，小模型突破推理极限

市场资讯2025-06-04

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！强化学习（RL）到底是语言模型能力进化的“发动机”，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型“同质化”加重，失去多样性。然而，来自英伟达的这项研究指出，造成这一...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2540633800?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-06-04 19:08","share_image_url":"https://static.laohu8.com/b0d1b7e8843deea78cc308b15114de44","id":"2540633800","market":"fut","top_or_hot":-1,"title":"训练步数翻倍=推理能力质变，小模型突破推理极限","media":"市场资讯","content":"<div>\n<p>炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 强化学习（RL）到底是语言模型能力进化的“发动机”，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型“同质化”加重，失去多样性。然而，来自英伟达的这项研究指出，造成这一...</p>\n\n<a href=\"https://finance.sina.com.cn/stock/t/2025-06-04/doc-ineyxinc9220579.shtml\">网页链接</a>\n\n</div>\n","source":"sina","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>训练步数翻倍=推理能力质变，小模型突破推理极限</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n训练步数翻倍=推理能力质变，小模型突破推理极限\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-06-04 19:08 北京时间&nbsp;&nbsp;&nbsp;<a href=https://finance.sina.com.cn/stock/t/2025-06-04/doc-ineyxinc9220579.shtml><strong>市场资讯</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 强化学习（RL）到底是语言模型能力进化的“发动机”，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型“同质化”加重，失去多样性。然而，来自英伟达的这项研究指出，造成这一...</p>\n\n<a href=\"https://finance.sina.com.cn/stock/t/2025-06-04/doc-ineyxinc9220579.shtml\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0006061336.USD","symbol_name":"Blackrock US Small and MidCap Opportunities A2 USD","start_time":0,"source_url":"https://finance.sina.com.cn/stock/t/2025-06-04/doc-ineyxinc9220579.shtml","article_id":"2540633800","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2540633800","pubTimestamp":1749035280,"columns":[],"sourceInfo":{"source_id":"sina","name":"sina"},"weMediaInfo":null,"summary":"长期训练 = 推理能力质变！由 NVIDIA 团队提出的 ProRL框架，将 RL 训练步数从传统的几百步大幅提升至 2000 步以上，释放了小模型潜藏的巨大潜力。这个简单机制有效打破训练停滞，使模型持续进化。通过 ProRL，我们第一次看到“小模型”也可以在复杂推理任务中“迎难而上”，甚至跑赢大模型。未来，如果你想做出推理能力强、部署成本低、泛化能力强的小语言模型，ProRL 可能正是那把钥匙。","collect":0,"end_time":0,"defaultTopTitle":"sina.com.cn","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU0006061336.USD":"Blackrock US Small and MidCap Opportunities A2 USD","LU1169589451.USD":"ALLSPRING (LUX)  U.S. SELECT EQUITY \"A\" (USD) ACC","BK4096":"电气部件与设备","STEM":"Stem Inc.","BK4588":"碎股","BK4585":"ETF&股票定投概念","LU1169590202.USD":"ALLSPRING (LUX)  U.S. SELECT EQUITY \"I\" (USD) ACC","RL":"拉夫劳伦","BK4202":"服装、服饰与奢侈品","BK4535":"淡马锡持仓"},"translate_title":"Doubling the number of training steps = qualitative change in reasoning ability, small models break through reasoning limits","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"STEM":1,"RL":1},"content_text":"炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 强化学习（RL）到底是语言模型能力进化的“发动机”，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型“同质化”加重，失去多样性。然而，来自英伟达的这项研究指出，造成这一现象的根本原因在于：数学、编程等任务在 base model 的训练数据中被过度呈现，以及 RL 训练步数不足。ProRL 来了！长期训练 = 推理能力质变！由 NVIDIA 团队提出的 ProRL（Prolonged Reinforcement Learning）框架，将 RL 训练步数从传统的几百步大幅提升至 2000 步以上，释放了小模型潜藏的巨大潜力。结果令人震惊：这一突破主要来自于稳定长期的强化学习，然而，长期 RL 训练并不容易，容易出现熵崩塌、性能震荡、甚至“摆烂”。为此，团队构建了完整的技术组合拳：引入了数学、编程、科学问答（STEM）、逻辑谜题、指令遵循等多领域数据，这些任务具有程序化可验证的正确答案，为 RL 训练提供了可靠、客观的监督信号，不再依赖“易被骗”的奖励模型。在 GRPO（Group Relative Policy Optimization）框架基础上，融合 DAPO（Decoupled Clip and Dynamic Sampling）关键的解耦裁剪（Decoupled Clipping）来避免策略更新失衡，以及动态采样（Dynamic Sampling）来过滤掉“太容易”或“完全不会”的无效样本，提升训练效率。与一些去 KL 正则的做法相反，本论文发现适度 KL 惩罚是稳定训练的关键。同时引入参考策略重置机制：当 KL 骤增或性能下滑时，重置参考策略为当前模型副本，并重置优化器，让训练“重启”。这个简单机制有效打破训练停滞，使模型持续进化。基于 ProRL 技术，团队训练出 Nemotron-Research-Reasoning-Qwen-1.5B，展现出惊人的性能优势：ProRL 真的能够拓宽模型能力边界近来，对于 RL 是否能够拓宽模型的能力边界一直有争议。作者在文章中着重分析了 RL 是否能够拓宽能力边界的问题，并且发现，长期稳定的 RL 能够带来模型能力的真正提升。围绕着这个主题，文章主要揭示了三个方面的发现：总结这项来自 NVIDIA 的研究，让我们重新认识了 RL 的真正潜力——不仅能优化策略，还能扩展模型的能力边界。通过 ProRL，我们第一次看到“小模型”也可以在复杂推理任务中“迎难而上”，甚至跑赢大模型。而这种进步，不靠更多数据、不靠更大模型，只靠更长、更稳、更聪明的训练流程。未来，如果你想做出推理能力强、部署成本低、泛化能力强的小语言模型，ProRL 可能正是那把钥匙。\n\n\n\n海量资讯、精准解读，尽在新浪财经APP","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.36.2","shortVersion":"4.36.2","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2540633800","isCrawlerRequest":true}