OpenAI联合创始人揭秘AI进化新方向：让模型学会和人类一样反思

市场资讯2025-07-14

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。这就是所谓的“...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2551975105?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-07-14 11:25","share_image_url":"https://static.laohu8.com/b0d1b7e8843deea78cc308b15114de44","id":"2551975105","market":"fut","top_or_hot":-1,"title":"OpenAI联合创始人揭秘AI进化新方向：让模型学会和人类一样反思","media":"市场资讯","content":"<div>\n<p>炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。这就是所谓的“...</p>\n\n<a href=\"https://finance.sina.com.cn/stock/t/2025-07-14/doc-inffmawy3285895.shtml\">网页链接</a>\n\n</div>\n","source":"sina","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>OpenAI联合创始人揭秘AI进化新方向：让模型学会和人类一样反思</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nOpenAI联合创始人揭秘AI进化新方向：让模型学会和人类一样反思\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-07-14 11:25 北京时间&nbsp;&nbsp;&nbsp;<a href=https://finance.sina.com.cn/stock/t/2025-07-14/doc-inffmawy3285895.shtml><strong>市场资讯</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。这就是所谓的“...</p>\n\n<a href=\"https://finance.sina.com.cn/stock/t/2025-07-14/doc-inffmawy3285895.shtml\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0006061336.USD","symbol_name":"Blackrock US Small and MidCap Opportunities A2 USD","start_time":0,"source_url":"https://finance.sina.com.cn/stock/t/2025-07-14/doc-inffmawy3285895.shtml","article_id":"2551975105","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2551975105","pubTimestamp":1752463500,"columns":[],"sourceInfo":{"source_id":"sina","name":"sina"},"weMediaInfo":null,"summary":"Karpathy 觉得，RL 缺少这种类似人类反思的机制，而这可能是 LLMs 未来进化的关键。Karpathy 用“second nature”来形容人类通过反思逐渐掌握技能的过程。Karpathy 认为，AI 应该也有类似机制，尤其是像 LLMs 这样有强大语言能力和上下文学习能力的模型。Karpathy 认为，RL 确实比监督微调更“苦涩”，而且还会带来更多性能提升。Karpathy 的设想是：如果能让模型自己总结经验教训，并在实践中不断优化，可能会开启 AI 智能的新篇章。","collect":0,"end_time":0,"defaultTopTitle":"sina.com.cn","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU0006061336.USD":"Blackrock US Small and MidCap Opportunities A2 USD","SFT":"Shift Technologies, Inc.","BK4585":"ETF&股票定投概念","BK4214":"汽车零售","BK4588":"碎股","BK4202":"服装、服饰与奢侈品","RL":"拉夫劳伦"},"translate_title":"OpenAI co-founder reveals the new direction of AI evolution: let models learn to reflect like humans","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"SFT":1,"RL":1},"content_text":"炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：1. 长任务的局限性（渐进问题）：当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任务，最后只得到一个单一的“得分”（scalar reward），然后用这个得分去调整整个过程中的行为权重。这就像跑了一场马拉松，最后只告诉你“跑得不错”或“跑得不好”，但没有具体告诉你哪里可以改进。这种方式在超长任务上显得粗糙，效率不高。2. 人类学习的差异（机制问题）：人类在学习时并不完全依赖“结果好坏”这种单一信号。我们会通过反思来提取更多信息，比如“这次哪里做得好？哪里出了问题？下次该怎么改进？”这种反思过程会生成明确的经验教训（lessons），就像一条条指导原则，帮我们在未来做得更好。Karpathy 觉得，RL 缺少这种类似人类反思的机制，而这可能是 LLMs 未来进化的关键。Karpathy 用“second nature”（第二本能）来形容人类通过反思逐渐掌握技能的过程。比如，你学骑自行车时，摔了几次后会总结：“我得保持平衡，眼睛看前方。”这种总结就像一条“经验教训”，直接指导你下次的行为。Karpathy 认为，AI 应该也有类似机制，尤其是像 LLMs 这样有强大语言能力和上下文学习能力的模型。他举了个例子：LLMs 在处理某些任务（比如数单词“strawberry”里的“r”）时，因为分词和内部计算的限制，表现得很吃力。Anthropic 给 Claude 加了一条“补丁”提示，大意是：“如果要数字母，先把单词拆成单个字母，用逗号隔开，然后一个一个数。”这条提示就像人类总结的“经验教训”，直接告诉模型怎么做更有效。问题在于：这条“补丁”是工程师手动加的。Karpathy 想知道，能不能让模型自己通过实践和反思，自动生成这样的“经验教训”，而不是靠人类硬编码？更进一步，这些教训能不能被“蒸馏”成模型的直觉（类似人类睡觉时巩固记忆），避免上下文窗口无限膨胀？Karpathy 设想了一种可能的算法，灵感来自人类反思的机制，专门为 LLMs 设计：1. 多次尝试（Rollouts）：让模型针对一个任务做几次尝试，每次记录行为和结果（奖励高低）。2. 反思阶段：把这些尝试的结果塞进上下文窗口，用一个“元提示”（meta-prompt）引导模型分析：“这次哪里做得好？哪里不好？下次该怎么改进？”生成一条明确的“经验教训”（lesson），以字符串形式记录。3. 更新系统提示：把新生成的“教训”加到系统提示中，或者存到一个“教训数据库”里，供未来使用。4. 长期优化：为了避免上下文窗口塞满这些教训，可以通过某种方式（类似“睡眠”）把它们蒸馏到模型权重中，形成更高效的直觉。这种方法利用了 LLMs 的独特优势——它们能理解和生成语言，能在上下文里学习新策略。而传统的 RL（比如在 Atari 游戏或机器人控制中）没有这种语言能力，所以无法直接套用这个思路。Karpathy 认为，RL 确实比监督微调更“苦涩”，而且还会带来更多性能提升。但他也相信，RL 只是当前的一条 S 曲线（技术进步的阶段性曲线），未来还有更多曲线等待发现。特别是对于 LLMs 这样有语言能力的模型，可能会有全新的学习范式，超越传统 RL 的局限。这些范式可能跟人类反思、总结、归纳的方式更接近，而且在长任务和复杂问题上更高效。他提到的 ChatGPT 新增的“Memory”功能，可能是一个雏形，但目前只用于个性化定制（比如记住用户偏好），还没用于解决复杂问题。Karpathy 的设想是：如果能让模型自己总结经验教训，并在实践中不断优化，可能会开启 AI 智能的新篇章。Andrej Karpathy个人简介：Andrej Karpathy 是人工智能研究机构 OpenAI 的创始成员之一，并在其早期发展阶段（2015年至2017年）担任研究科学家；2017年6月，他接受埃隆·马斯克的邀请，离开 OpenAI，加入特斯拉，担任人工智能和 Autopilot Vision 的总监，后晋升为 AI 高级总监；2023年2月，在离开特斯拉一段时间后，Karpathy 宣布重新加入 OpenAI，参与改进 ChatGPT 的 GPT-4模型。（转自：网易科技）\n\n\n海量资讯、精准解读，尽在新浪财经APP","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.39.0","shortVersion":"4.39.0","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2551975105","isCrawlerRequest":true}