让大模型按照人类意图行事,一直是AI领域的核心挑战。目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。奖励过度优化是大模型对齐的“阿喀琉斯之踵”。简单来说,就是模型学会了“钻空子”——它们不是真正变得更好,而是学会了如何在奖励模型上刷高分,实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师,而不是真正...
网页链接让大模型按照人类意图行事,一直是AI领域的核心挑战。目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。奖励过度优化是大模型对齐的“阿喀琉斯之踵”。简单来说,就是模型学会了“钻空子”——它们不是真正变得更好,而是学会了如何在奖励模型上刷高分,实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师,而不是真正...
网页链接
精彩评论