RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

新智元2025-10-16

让大模型按照人类意图行事，一直是AI领域的核心挑战。目前主流的强化学习微调（RFT）方法虽然有效，但存在一个致命弱点：奖励过度优化（reward over-optimization）。奖励过度优化是大模型对齐的“阿喀琉斯之踵”。简单来说，就是模型学会了“钻空子”——它们不是真正变得更好，而是学会了如何在奖励模型上刷高分，实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师，而不是真正...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2575071906?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-10-16 17:17","share_image_url":"https://static.laohu8.com/b0d1b7e8843deea78cc308b15114de44","id":"2575071906","market":"us","top_or_hot":-1,"title":"RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法","media":"新智元","content":"<div>\n<p>让大模型按照人类意图行事，一直是AI领域的核心挑战。目前主流的强化学习微调（RFT）方法虽然有效，但存在一个致命弱点：奖励过度优化（reward over-optimization）。奖励过度优化是大模型对齐的“阿喀琉斯之踵”。简单来说，就是模型学会了“钻空子”——它们不是真正变得更好，而是学会了如何在奖励模型上刷高分，实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师，而不是真正...</p>\n\n<a href=\"https://finance.sina.com.cn/roll/2025-10-16/doc-infuaqmp7216323.shtml\">网页链接</a>\n\n</div>\n","source":"sina","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nRL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-10-16 17:17 北京时间&nbsp;&nbsp;&nbsp;<a href=https://finance.sina.com.cn/roll/2025-10-16/doc-infuaqmp7216323.shtml><strong>新智元</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>让大模型按照人类意图行事，一直是AI领域的核心挑战。目前主流的强化学习微调（RFT）方法虽然有效，但存在一个致命弱点：奖励过度优化（reward over-optimization）。奖励过度优化是大模型对齐的“阿喀琉斯之踵”。简单来说，就是模型学会了“钻空子”——它们不是真正变得更好，而是学会了如何在奖励模型上刷高分，实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师，而不是真正...</p>\n\n<a href=\"https://finance.sina.com.cn/roll/2025-10-16/doc-infuaqmp7216323.shtml\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0006061336.USD","symbol_name":"Blackrock US Small and MidCap Opportunities A2 USD","start_time":0,"source_url":"https://finance.sina.com.cn/roll/2025-10-16/doc-infuaqmp7216323.shtml","article_id":"2575071906","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2575071906","pubTimestamp":1760606220,"columns":[],"sourceInfo":{"source_id":"sina","name":"sina"},"weMediaInfo":null,"summary":"Scale AI的最新研究直击这一痛点，从理论层面揭示了问题的根源，并提出了创新的解决方案。研究团队提出了基于评分准则的解决方案。评分准则是一组衡量回答好坏的明确准则，每个准则都有相应权重。两大原则：如何构建有效的Rubric为了让Rubric真正捕捉高分区的差异，研究团队提出两大关键原则：原则1：区分“优秀”与“卓越”。","collect":0,"end_time":0,"defaultTopTitle":"sina.com.cn","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU0006061336.USD":"Blackrock US Small and MidCap Opportunities A2 USD","BK4588":"碎股","RL":"拉夫劳伦","BK4202":"服装、服饰与奢侈品","BK4585":"ETF&股票定投概念","LU0054578231.USD":"BGF SYSTEMATIC SUSTAINABLE GLOBAL SMALLCAP \"A2\" (USD) ACC"},"translate_title":"RL fine-tuning, the key lies in the first 10% reward! Based on scoring criteria, Scale AI et al. proposed a new method","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"RL":1.5},"content_text":"让大模型按照人类意图行事，一直是AI领域的核心挑战。目前主流的强化学习微调（RFT）方法虽然有效，但存在一个致命弱点：奖励过度优化（reward over-optimization）。奖励过度优化是大模型对齐的“阿喀琉斯之踵”。简单来说，就是模型学会了“钻空子”——它们不是真正变得更好，而是学会了如何在奖励模型上刷高分，实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师，而不是真正理解知识。Scale AI的最新研究直击这一痛点，从理论层面揭示了问题的根源，并提出了创新的解决方案。代码开源：https://github.com/Jun-Kai-Zhang/rubrics数据开源：https://huggingface.co/datasets/JunkaiZ/Rubrics理论突破高分区才是关键战场来自Scale AI、UCLA和芝加哥大学的研究团队，首次从理论上给出了明确答案：奖励过度优化的根源，在于奖励模型在高分区的不准确性。高奖励区域的准确性决定一切：当代理奖励在高分区域出现偏差时，模型性能会随着训练进程急剧崩溃；而低分区域的误差影响微乎其微。只需要准确识别Top 2响应：即使只能正确排序前10%的优质回答，模型性能就能接近最优，效果几乎与完美奖励模型相当。这意味着：我们不需要在所有回复上都准确，只需要准确区分“优秀”和“卓越”!方法创新用评分准则捕捉“卓越”理论清晰了,但新问题来了：如何获得高质量样本来训练奖励模型？这里存在一个悖论：从基础模型采样？太低效了——高分样本本来就稀少。用更强模型生成？又会引入分布偏移——奖励模型可能学到的是表面特征而非真实能力。研究团队提出了基于评分准则（rubric）的解决方案。评分准则是一组衡量回答好坏的明确准则，每个准则都有相应权重。比如对于医疗诊断问题，可能包括：高权重准则：“正确识别疾病”“标明紧急程度”低权重准则：“提及治疗方案”Rubric的核心优势在于：将评分分解为多个可验证的具体标准每个标准都是二元判断（满足/不满足）最终得分是满足标准的加权平均更重要的是,Rubric天然具有分布不变性——它关注的是回复本身的质量特征,而非生成来源。两大原则：如何构建有效的Rubric为了让Rubric真正捕捉高分区的差异，研究团队提出两大关键原则：原则1：区分“优秀”与“卓越”。通过对比两个都很好的回答，识别它们的细微差异，将这些差异编码为新的评分准则。原则2：在多样化的优质回答中寻找差异。扩大候选池，从16个顶尖模型中采样，确保覆盖不同的优秀回答模式。实验验证全面碾压基线方法研究在通用和医疗两个领域进行了大规模实验：性能提升明显使用优质样本改进的评分准则，胜率从31.3%提升至39.7%医疗领域的HealthBench得分从0.3004提升至0.3513有效缓解奖励过度优化初始评分准则训练的模型在60步后性能急剧下降改进后的评分准则将崩溃点推迟到160步，延长了近3倍高奖励区域准确率大幅提升评分准则改进后，在高奖励区域的准确率提升显著，而低奖励区域的准确率基本不变，完美验证了理论预测。质的飞跃：优秀样本带来更深层的改进研究团队还分析了不同质量样本带来的Rubric改进类型：优秀样本驱动的改进：添加惩罚项，避免明显错误放宽过于严格的标准纠正错误或对齐预期标准卓越样本驱动的改进：将复杂标准分解为子标准增强验证和证据标准明确范围、边界和约束纳入风险分析和安全约束以医疗案例为例：初始Rubric只要求“提到正确诊断”和“说明紧急性”——两个优秀回复都满足。精炼后的Rubric新增标准：“明确指出需要紧急影像学检查（如增强CT或MRI/MRV）来确认诊断”，成功区分出了更好的那个。这就是质的飞跃：从表面判断到深层验证标准。产业意义与展望这项研究为大模型对齐提供了全新视角：理论指导实践：明确了奖励建模的优化方向——聚焦高奖励区域方法可操作性强：基于评分准则的方法易于实施和解释领域适应性好：在医疗等专业领域表现尤其出色当然，研究也指出了当前的局限：简单的加权平均可能不是最优的分数聚合方式对于大模型从业者来说，这项工作提供了一个清晰的方向：不要试图在所有地方都完美，专注于准确区分顶尖回复，这才是对齐的关键。\n\n\n海量资讯、精准解读，尽在新浪财经APP","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":1,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.43.1","shortVersion":"4.43.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2575071906","isCrawlerRequest":true}