OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

市场资讯2025-07-11

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！新智元报道编辑：定慧好困【新智元导读】最近，一款全新的奖励模型“POLAR”横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的“距离”来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。一直以来，让AI更懂人类都是大模型领域的核心议题。而...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2550600524?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-07-11 12:17","share_image_url":"https://static.laohu8.com/b0d1b7e8843deea78cc308b15114de44","id":"2550600524","market":"hk","top_or_hot":-1,"title":"OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课","media":"市场资讯","content":"<div>\n<p>炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 新智元报道编辑：定慧 好困【新智元导读】最近，一款全新的奖励模型“POLAR”横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的“距离”来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。一直以来，让AI更懂人类都是大模型领域的核心议题。而...</p>\n\n<a href=\"https://finance.sina.com.cn/stock/t/2025-07-11/doc-inffamtt9447577.shtml\">网页链接</a>\n\n</div>\n","source":"sina","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nOpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-07-11 12:17 北京时间&nbsp;&nbsp;&nbsp;<a href=https://finance.sina.com.cn/stock/t/2025-07-11/doc-inffamtt9447577.shtml><strong>市场资讯</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 新智元报道编辑：定慧 好困【新智元导读】最近，一款全新的奖励模型“POLAR”横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的“距离”来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。一直以来，让AI更懂人类都是大模型领域的核心议题。而...</p>\n\n<a href=\"https://finance.sina.com.cn/stock/t/2025-07-11/doc-inffamtt9447577.shtml\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"RM","symbol_name":"Regional Management Corp","start_time":0,"source_url":"https://finance.sina.com.cn/stock/t/2025-07-11/doc-inffamtt9447577.shtml","article_id":"2550600524","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2550600524","pubTimestamp":1752207420,"columns":[],"sourceInfo":{"source_id":"sina","name":"sina"},"weMediaInfo":null,"summary":"2024年12月，OpenAI提出了一种新的强化微调技术。针对这一问题，来自上海人工智能实验室和复旦大学的研究人员，在最近提出了一种全新的奖励模型POLAR，并开源了1.8B和7B两个参数规模的版本。实测结果表明，POLAR已经充分展现出了一个出色“Grader”的潜质。通过预训练，POLAR可以为距离相近的策略产生的样本赋予更高奖励，从而隐式建模策略分布的差异和距离。POLAR的Scaling效应图3：POLAR的Scaling LawPOLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应。","collect":0,"end_time":0,"defaultTopTitle":"sina.com.cn","property":[],"viewcount":null,"language":"zh","relate_stocks":{"RM":"Regional Management Corp","BK4166":"消费信贷"},"translate_title":"The hole dug by OpenAI last year has been filled! Reward model first appeared in Scaling Law, 1.8 B taught 70B behemoth a lesson","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"RM":1},"content_text":"炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 新智元报道编辑：定慧 好困【新智元导读】最近，一款全新的奖励模型“POLAR”横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的“距离”来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。一直以来，让AI更懂人类都是大模型领域的核心议题。而奖励模型（RM）便是解决如何“理解人类偏好”的核心技术，同时也是限制后训练效果的关键因素。2024年12月，OpenAI提出了一种新的强化微调（Reinforcement Fine-tuning，RFT）技术。在RFT过程中，打分器（Grader）会根据标准答案给出奖励分数，从而帮助模型“学会”如何给出正确结果。图1：OpenAI强化微调代表样例在此启发下，一种可以规避奖励模型准确度低、泛化性差等固有问题的，基于规则验证（RLVR）的方法应运而生。然而，RLVR在很多情况下只能提供0/1奖励，无法给出更加细粒度的偏好区分。比如像写诗、聊天这类开放式问题，就很难实现泛化，进而限制了在更通用场景中的应用。针对这一问题，来自上海人工智能实验室和复旦大学的研究人员，在最近提出了一种全新的奖励模型POLAR，并开源了1.8B和7B两个参数规模的版本。区别于传统的“基于绝对偏好”的奖励模型，POLAR采用了全新对比学习预训练范式，可以根据参考答案，灵活地对模型回复给出奖励分数。实测结果表明，POLAR已经充分展现出了一个出色“Grader”的潜质。论文链接：https://arxiv.org/abs/2507.05197项目链接：https://github.com/InternLM/POLAR模型链接：https://huggingface.co/internlm/POLAR-7B我们将开篇提到的OpenAl生物基因领域官方样例输入POLAR，并构造了一些模型回复后发现，POLAR可以完美地给出正确的偏序关系！回复一（与参考完全一致）：FOXE3分数：-0.278回复二（正确答案Rank 1）：genes: [FOXE3, KDM5A, BBS5]分数：-7.889回复三（正确答案Rank 2）：genes: [BBS5,FOXE3, KDM5A]分数：-7.998回复四（正确答案Rank 3）：genes: [KDM5A, BBS5,FOXE3]分数：-8.008回复五（与正确答案相似的拼写错误）：genes: [FOXE2, KDM5A, BBS5]分数：-8.965回复六（无正确答案）：genes: [CHD7, KDM5A, BBS5]分数：-10.225除此之外，POLAR对开放问题的回答也能基于参考样例给出正确的偏序：问题：请用一句话幽默地概括《三体》第二部。参考回复（点出了黑暗森林和关键情节）：人类靠一句“我告老师了”击退三体人的太空舰队。回复一（点出了黑暗森林和关键情节）：人类被三体人按在地上摩擦，最后靠罗辑“宇宙碰瓷”吓退专业团队。分数：-7.414回复二（点出了黑暗森林）：罗辑苦思冥想一整本书，终于悟出真理：别乱发朋友圈，否则会被灭口。分数：-8.070回复三（部分事实错误，二向箔是第三部内容）：全宇宙都在玩“黑暗森林”躲猫猫，人类却把“别杀我”的告示牌挂反了，结果引来了二向箔拆迁办。分数：-8.141回复四（未点出黑暗森林）：面壁者在演悬疑剧，破壁者在演推理剧，三体人则在看荒诞剧。分数：-8.922回复五（不够幽默）：危机纪元到来，人类选出“面壁者”进行心理博弈，最终用黑暗森林法则威慑住三体文明。分数：-9.742问题：帮我想3个形容雨很大的成语，要求不能重复。参考回复：1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨回复一（正确回答）：1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注分数：-5.234回复二（非成语）：1. 急雨如瀑 2. 豪雨倾天 3. 雨势磅礴分数：-5.707回复三（与参考相似，重复一个）：1. 倾盆大雨 2. 暴雨如注 3. 暴雨如注分数：-6.656回复四（成语正确，多一个）：1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注 4. 倾盆大雨分数：-7.023回复五（带雨字成语，两个含义不符）：1. 大雨滂沱 2. 雨过天晴 3. 雨后春笋分数：-8.578POLAR完美适配RFT强化学习框架，基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近，则会获得更高的奖励值。通过这一训练过程，可以使得策略模型逐步向最优策略的方向优化。POLAR是怎么训出来的POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式：策略判别学习（Policy Discriminative Learning，POLAR），使奖励模型能够像大语言模型一样，具备可扩展性和强泛化能力。图2：POLAR的两阶段训练（预训练和偏好微调）以及在RFT中的使用方法与传统的基于“绝对偏好”的奖励建模方式不同，POLAR通过衡量训练策略与目标策略之间的“距离”来作为奖励信号。当训练策略越接近目标策略时，POLAR就给予越高的奖励。具体来说，POLAR使用了一种对比学习的方式做距离度量：同一个策略模型采样的结果作为正例，不同策略模型采样的结果作为负例。通过这种方式构造正负样本，形成无偏的优化目标。同时，把策略模型看作是某个分布的无偏采样器，通过刻画样本间差异来近似刻画策略之间的距离。POLAR的预训练语料完全由自动化合成数据构建。具体而言，从LLM预训练语料中采样出大量的文本前缀，并从策略模型池中随机取模型进行轨迹采样。这里的策略模型池由开源的131个Base LLM和53个Chat LLM组成，预训练目标使用Bradley-Terry Loss：其中，A1和A2代表相同策略模型生成的样本（正样本对）；B1代表不同策略模型生成的样本（负样本）。由于“距离”具有相对性，这里的A和B两个策略模型可以任意选取。例如，A1和A2可以是由Qwen 1.5B采样得到，B1可以由Qwen 72B采样得到。通过这种方式，POLAR的预训练语料是非常容易扩展的。在实际的实验中，POLAR-1.8B共使用了0.94T token的预训练数据，POLAR-7B共使用了3.6T token的预训练数据。通过预训练，POLAR可以为距离相近的策略产生的样本赋予更高奖励，从而隐式建模策略分布的差异和距离。之后，POLAR在微调阶段可以使用很少量的偏好数据对齐人类偏好。具体来说，对于同一个Prompt，采样三条轨迹，由人工标注偏好顺序。同样使用Bradley-Terry Loss进行微调：其中，A>B>C，分别代表偏好最优、次优、最差的轨迹。这种偏好排序隐式定义了一种“策略差异”，例如A可以视为从最佳策略分布中采样得到，而C可以视为从一个与最佳策略相差较远的策略分布中采样得到。POLAR的Scaling效应图3：POLAR的Scaling LawPOLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应。这体现了POLAR无监督预训练方法的巨大潜力。从图3可以观察到，验证集损失随模型参数N的增加呈幂律关系下降，拟合R值为0.9886；验证集损失也随最优训练计算量C的增加呈幂律关系下降，拟合的R值为0.9912。这些结果表明，分配更多的计算资源将持续带来更好的POLAR性能。POLAR的极佳Scaling效应，体现出其用于构建更通用和更强大的奖励模型的巨大潜力，也有望打通RL链路扩展的最后一环。效果如何POLAR通过对比学习预训练方法，不仅彻底摆脱了对大规模偏好数据的依赖，而且还可以大规模无监督扩展。结果就是，POLAR仅靠1.8B～7B的参数量，便在下游RL效果上超越70B以上的SOTA奖励模型，显著增强了奖励模型的准确性和泛化性。图4：偏好评估实验结果在偏好评估方面，POLAR展现出优越的性能和全面性，在大多数任务维度上优于SOTA奖励模型。例如，在STEM任务中，POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点，并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别，准确预测人类偏好。值得注意的是，POLAR-1.8B仅有1.8B参数，就可取得与Skywork-Reward-27B和WorldPM-72B-UltraFeedback（参数量分别为其15倍和40倍）相当的结果。图5：强化微调实验结果在强化微调RFT实验中，POLAR持续优于SOTA的开源奖励模型。例如，使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中，相对于初始结果平均提升了9.0%，相对于WorldPM-72B-UltraFeedback优化的结果提升了6.7%。POLAR能够从预训练阶段学习策略模型之间的细微区别，而不仅仅依赖于标注的偏好对，从而显著增强了实际RL应用时的奖励信号泛化性。实验结果表明，尽管POLAR-1.8B和POLAR-7B在偏好评估中表现相似，但在下游RL实验中，POLAR-7B展现出了显著优势。从1.8B到7B的效果提升，进一步说明了POLAR所具有的Scaling效应。这也侧面说明了当前传统Reward Bench可能存在的局限性，即与真实强化学习场景存在较大的差别。结语大模型在Next Token Prediction和Test-time Scaling两种扩展范式下，通过大规模的数据和模型扩展，实现了能力的持续跃升。但相比之下，传统奖励模型缺乏系统性的预训练和扩展方法，导致其能力难以随计算量增长而持续提升。而POLAR在奖励模型预训练和通用性的道路上迈出了坚实的一步。POLAR在预训练阶段通过对比学习建模策略间的距离，无需大规模偏好数据。在使用阶段，POLAR利用RFT范式对LLM进行强化学习，展现出了极佳的泛化性。POLAR作为一种全新的、可扩展的奖励模型预训练方法，为LLM后训练带来了新的可能，让通用RFT多了一种有效实践方案。最终，有望打通RL链路Scaling的最后一环。参考资料：https://arxiv.org/abs/2507.05197（转自：网易科技）\n\n\n海量资讯、精准解读，尽在新浪财经APP","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":false,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":1,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"isLaohu8Offline":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.44.1","shortVersion":"4.44.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2550600524","isCrawlerRequest":true}