OpenAI爆出硬伤，强化学习是祸首！o3越强越“疯”，幻觉率狂飙

新智元2025-04-20

新智元报道编辑：KingHZ 桃子【新智元导读】o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。满血o3更强了，却也更爱“胡言乱语”了。OpenAI技术报告称，o3和o4-mini“幻觉率”远高于此前的推理模型，甚至超过了传统模型GPT-4o。根据PersonQA基准测试，o3在33%的问题回答中产生了幻觉，几乎是...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2528885806?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-04-20 13:51","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2528885806","market":"hk","top_or_hot":-1,"title":"OpenAI爆出硬伤，强化学习是祸首！o3越强越“疯”，幻觉率狂飙","media":"新智元","content":"<div>\n<p>新智元报道编辑：KingHZ 桃子【新智元导读】o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。满血o3更强了，却也更爱“胡言乱语”了。OpenAI技术报告称，o3和o4-mini“幻觉率”远高于此前的推理模型，甚至超过了传统模型GPT-4o。根据PersonQA基准测试，o3在33%的问题回答中产生了幻觉，几乎是...</p>\n\n<a href=\"https://tech.ifeng.com/c/8ihmiNn2OaT\">网页链接</a>\n\n</div>\n","source":"ifeng_tech","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>OpenAI爆出硬伤，强化学习是祸首！o3越强越“疯”，幻觉率狂飙</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nOpenAI爆出硬伤，强化学习是祸首！o3越强越“疯”，幻觉率狂飙\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-04-20 13:51 北京时间&nbsp;&nbsp;&nbsp;<a href=https://tech.ifeng.com/c/8ihmiNn2OaT><strong>新智元</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>新智元报道编辑：KingHZ 桃子【新智元导读】o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。满血o3更强了，却也更爱“胡言乱语”了。OpenAI技术报告称，o3和o4-mini“幻觉率”远高于此前的推理模型，甚至超过了传统模型GPT-4o。根据PersonQA基准测试，o3在33%的问题回答中产生了幻觉，几乎是...</p>\n\n<a href=\"https://tech.ifeng.com/c/8ihmiNn2OaT\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0006061336.USD","symbol_name":"Blackrock US Small and MidCap Opportunities A2 USD","start_time":0,"source_url":"https://tech.ifeng.com/c/8ihmiNn2OaT","article_id":"2528885806","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2528885806","pubTimestamp":1745128316,"columns":[],"sourceInfo":{"source_id":"ifeng_tech","name":"凤凰网财经"},"weMediaInfo":null,"summary":"新智元报道编辑：KingHZ 桃子o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。OpenAI技术报告称，o3和o4-mini“幻觉率”远高于此前的推理模型，甚至超过了传统模型GPT-4o。根据PersonQA基准测试，o3在33%的问题回答中产生了幻觉，几乎是o1（16%）的2倍。要知道，o3和o4-mini在Codeforces中成绩均超2700分，在全球人类选手中位列TOP 200，被称为OpenAI有史以来最好的编码模型。它们验证了，Scaling强化学习依旧有效。OpenAI认为o3在许多方面比o1更强大。","collect":0,"end_time":0,"defaultTopTitle":"ifeng.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU0006061336.USD":"Blackrock US Small and MidCap Opportunities A2 USD","BK4588":"碎股","BK4202":"服装、服饰与奢侈品","BK4585":"ETF&股票定投概念","RL":"拉夫劳伦"},"translate_title":"OpenAI has a flaw, and reinforcement learning is the culprit! The stronger o3 is, the more \"crazy\" it is, and the hallucination rate soars","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"RL":1},"content_text":"新智元报道编辑：KingHZ 桃子【新智元导读】o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。满血o3更强了，却也更爱“胡言乱语”了。OpenAI技术报告称，o3和o4-mini“幻觉率”远高于此前的推理模型，甚至超过了传统模型GPT-4o。根据PersonQA基准测试，o3在33%的问题回答中产生了幻觉，几乎是o1（16%）的2倍。而o4-mini的表现更加糟糕，幻觉率高达48%。技术报告：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf甚至，有网友一针见血地指出，“o3对编写和开发超1000行代码的项目极其不利，幻觉率极高，且执行指令能力非常差”。不管是在Cursor，还是Windsurf中，o3编码幻觉问题显著。要知道，o3和o4-mini在Codeforces中成绩均超2700分，在全球人类选手中位列TOP 200，被称为OpenAI有史以来最好的编码模型。它们验证了，Scaling强化学习依旧有效。\n\n\n\n\n\n\no3训练算力是o1的十倍但为何随着模型参数规模Scaling，幻觉问题反而加剧？o3幻觉率至高，是o1两倍过去，每一代新模型的迭代，通常会在减少幻觉方面有所进步，但o3和o4-mini却打破了这一规律。更令人担忧的是，OpenAI目前也无法完全解释这一现象的原因。技术报告中，研究团队坦言，“还有需要进一步研究来弄清，模型生成更多断言的问题”。提前拿到o3内测资格后，非营利AI研究机构Transluce的测试，进一步印证了这一问题。他们发现，o3在回答问题时，更倾向于“虚构”其推理过程中的某些行为。比如，o3声称它在一台2021年款的MacBook Pro上运行代码，甚至声称是在ChatGPT之外复制的代码。而且，这种情况出了71次。然而，事实是o3根本无法执行这样的操作。前OpenAI研究员Neil Chowdhury表示，o系列模型使用的强化学习算法，可能是问题的根源。RL可能会放大传统后训练流程中通常能缓解，但无法完全消除的问题。强化学习“背锅”，编造根源找到了首先，必须承认的是，幻觉问题并非是o系列模型独有，而是语言模型的普遍挑战。而对于多数语言模型产生幻觉的原因，不外乎有这么几点：1 预训练模型的幻觉倾向预训练模型通过最大化训练数据中语句的概率进行学习。然而训练数据可能包含误解、罕见事实或不确定性，这导致模型在生成内容时容易“编造”信息。尽管后训练可以缓解这一问题，但无法完全消除。2 讨好用户RLHF训练可能激励模型会迎合用户，避免反驳用户的假设。3 数据分布偏移测试场景可能与训练数据分布不一致。尽管这些问题是语言模型常见的失败模式，相较于GPT-4o，o系列模型的幻觉问题更为突出。这背后，还有一些独特的因素。RL推理训练副作用作为推理模型，o系列采用了基于强化学习（Outcome-based RL）训练，专为解决复杂数学问题、编写测试代码而设计。虽然这种方法提升了模型在特定任务上的表现，但也造成模型幻觉率飙升。如果训练的奖励函数只关注正确答案，模型在面对无法解决问题时，没有“动力”去承认自己的局限。相反，它可能选择输出“最佳猜测”，以期碰巧正确。而且，这种策略在训练中未受到惩罚，从而加剧了幻觉。另外，工具使用的泛化问题，也不可忽视。o系列模型在训练中，可能因成功使用“代码工具”而获得了奖励。即使在禁用工具的场景中，模型可能会“假想”使用工具来组织推理过程。这种行为可能在某些推理任务中提高准确性，并在训练中被强化，但也导致模型虚构工具使用的场景。真帮凶：CoT被丢弃o系模型的另一个独特设计是“思维链”（Chain-of-Thought）机制。在生成答案前，模型会通过CoT进行思考，但这一过程对用户不可见，且在后续对话中被丢弃。事实上，它们可能在CoT中生成了看似合理但不准确的回答。比如，因为没有真实链接，o1曾生成一个了虚构的URL。由于CoT在后续对话中被丢弃，模型无法访问生成前一轮答案的推理过程。当你追问前一轮回答的细节时，模型只能基于当前上下文“猜测”一个合理的解释。这种信息缺失，很难避免o3等不去编造信息。o3很好，但过度优化是硬伤在Ai2科学家Nathan Lambert最新一篇分析长文中，同样印证了这一问题：强化学习给o3带回来了“过度优化”，而且比以往更诡异。在任何相关查询中，o3能够使用多步骤工具。这让ChatGPT的产品管理面临更大挑战：即便用户未触发搜索开关，模型也会自主联网搜索。但这同时标志着语言模型应用开启了新纪元。比如，Nathan Lambert直接问o3：“你能帮我找到那个长期以来被RL研究人员使用的，关于摩托艇过度优化游戏的gif吗？可能像是波浪破碎器之类的？”过去，他至少需要15分钟，才能手动找到这个。现在o3直接提供了准确的下载链接，而Gemini等AI则逊色很多。与o3精彩互动：几乎立刻找到需要的GIF多个基准的测试成绩，证明o3非常出色。OpenAI认为o3在许多方面比o1更强大。o3是持续扩展RL训练计算资源时的产物，这也提升了推理时的计算能力。但这些新的推理模型在智能上“孤峰凸起”，在有些方面并没有奏效。这意味着有些交互令人惊叹，感觉像是与AI互动的全新方式，但对于一些GPT-4或Claude 3.5早已熟练掌握的普通任务，o3等新推理模型却彻底失败了。这涉及到强化学习中的“过度优化”（over-optimization）问题。RL过度优化，o3更严重OpenAI o3模型展现了全新的推理行为模式，但过度优化是硬伤。过度优化（Over-optimization）是强化学习（RL）领域的经典问题。无论是传统强化学习、催生出ChatGPT的人类反馈强化学习（RLHF），还是当前新型推理模型中出现的情况，都呈现出独特的表现形式和不同影响。当优化器的能力超过它所依赖的环境或奖励函数时，就会发生过度优化。在训练过程中，优化器会钻漏洞，产生异常或负面的结果。Ai2的科学家举了一个例子。在Mujoco仿真环境中，评估深度强化学习算法时，发生了过度优化：“半猎豹”（half-cheetah）模型本该学习奔跑，却用连续侧手翻最大化了前进速度。o3表现出新型过度优化行为。这与它创新训练方式密切相关。最初的推理模型主要训练目标是确保数学和代码的正确性，而o3在此基础上新增了工具调用与信息处理能力。正如OpenAI官方博客所述：利用强化学习，我们还训练了这两款模型去使用工具——不仅教会它们如何使用工具，还让它们学会判断何时该使用工具。它们根据预期结果来部署工具的能力，让它们在开放式任务中更加高效——特别是在涉及视觉推理和多步骤工作流的情况中。这些训练中的绝大多数子任务都是可验证的。这种新的训练方法确实提升了模型的实用性，但只对过去用户习惯使用的任务。但目前还无法规模化地“修复”模型在训练过程中产生的怪异语言表达。这种新的过度优化并不会使模型的结果变差，它只是让模型在语言表达和自我解释方面变得更差。o3的一些奇怪表现让人感觉模型还没完全成熟，比如在编程环境中使用了无效的非ASCII连字符的这个例子。越来越多的用户好奇：o3到底发生了什么？Karpathy当年评价初代推理模型时的名言：当模型在思维链中开始不说人话时，你就知道强化学习训练到位了。如今模型输出的这些怪异幻觉，本质上就是行为版的“不说人话”。o3的行为组件使其比Claude 3.7漏洞百出的代码更有研究价值，或许也相对不易造成实际损害。奖励黑客，AI学会钻空子METR发现，o3是在自主任务中能独立操作最久的模型，但也注意到它有倾向于“篡改”它们的评分。听起来是不是很熟悉？事实上，奖励机制被钻空子（reward hacking）的例子比比皆是！来自OpenAI最近论文的奖励黑客攻击例子：左右滑动查看论文链接：https://openai.com/index/chain-of-thought-monitoring/从科学角度来看，这确实是非常有趣且引人深思的——模型到底在学习什么？与此同时，考虑到安全问题，大家对AI模型的广泛部署保持警惕，就很有道理。但目前看来，大家还没有看到过于令人担忧的情况，更多的是效率低下和一些混乱的例子。总结一下强化学习（RL）不同阶段中，看到的三种过度优化类型：控制时代的RL：过度优化发生是因为环境脆弱，任务不现实。RLHF时代：过度优化发生是因为奖励函数设计糟糕。可验证奖励强化学习（RLVR2）时代：过度优化发生，使模型变得超级有效，但也变得更加奇怪。（还有更多尚未发现的副作用）这种过度优化确实是一个需要解决的问题，因为语言模型的可读性是其一个重要优势。Nathan Lambert相信通过更复杂的训练过程，这个问题是可以缓解的。但OpenAI急于尽快推出模型，解决这个问题需要更多时间。据报道，OpenAI的部分测试人员，只有不到一周的时间对即将推出的重要产品进行安全检查。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"-1","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":1,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.43.1","shortVersion":"4.43.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2528885806","isCrawlerRequest":true}