长任务是检验Agent水平的唯一标准_老虎社区_美港股上老虎

长任务是检验Agent水平的唯一标准

蓝鲸财经04-02

文｜锦缎检验Agent水平的唯一标准是长任务。这个判断，建立在一个简单的事实上：短任务可以靠记忆完成，长任务必须靠理解完成。短任务中，模型只需处理当前输入；长任务中，模型需要保持上下文的连贯性，需要在数百步后还记得最初的意图，需要在遇到异常时自主调整策略。学术基准的残酷数据告诉我们，当前最顶尖的Agent在长任务中的通过率不足20%，而且随着任务迭代，代码质量持续恶化。这不是一个可以通过增加参数量...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

暂无评论

热议股票

7x24

全部

{"i18n":{"language":"zh_CN"},"data":{"share":"https://www.laohu8.com/m/news/2624520825?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2026-04-02 13:21","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2624520825","market":"us","top_or_hot":-1,"title":"长任务是检验Agent水平的唯一标准","media":"蓝鲸财经","content":"<div>\n<p>文｜锦缎检验Agent水平的唯一标准是长任务。这个判断，建立在一个简单的事实上：短任务可以靠记忆完成，长任务必须靠理解完成。短任务中，模型只需处理当前输入；长任务中，模型需要保持上下文的连贯性，需要在数百步后还记得最初的意图，需要在遇到异常时自主调整策略。学术基准的残酷数据告诉我们，当前最顶尖的Agent在长任务中的通过率不足20%，而且随着任务迭代，代码质量持续恶化。这不是一个可以通过增加参数量...</p>\n\n<a href=\"https://www.lanjinger.com/d/1775094460049092308\">网页链接</a>\n\n</div>\n","source":"lanjinger_stock","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>长任务是检验Agent水平的唯一标准</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n长任务是检验Agent水平的唯一标准\n</h2>\n\n<h4 class=\"meta\">\n\n\n2026-04-02 13:21 北京时间&nbsp;&nbsp;&nbsp;<a href=https://www.lanjinger.com/d/1775094460049092308><strong>蓝鲸财经</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>文｜锦缎检验Agent水平的唯一标准是长任务。这个判断，建立在一个简单的事实上：短任务可以靠记忆完成，长任务必须靠理解完成。短任务中，模型只需处理当前输入；长任务中，模型需要保持上下文的连贯性，需要在数百步后还记得最初的意图，需要在遇到异常时自主调整策略。学术基准的残酷数据告诉我们，当前最顶尖的Agent在长任务中的通过率不足20%，而且随着任务迭代，代码质量持续恶化。这不是一个可以通过增加参数量...</p>\n\n<a href=\"https://www.lanjinger.com/d/1775094460049092308\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"BK4528","symbol_name":"SaaS概念","start_time":0,"source_url":"https://www.lanjinger.com/d/1775094460049092308","article_id":"2624520825","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2624520825","pubTimestamp":1775107271,"columns":[],"sourceInfo":{"source_id":"lanjinger_stock","name":"蓝鲸财经"},"weMediaInfo":null,"summary":"文｜锦缎检验Agent水平的唯一标准是长任务。真正能够攻克长任务的Agent，可能同时需要两者的优势。01从短任务到长任务，Agent的成人礼2026年被多方确认为“智能体元年”。结果令人警醒：即使是最先进的Agent，通过率也低于20%。Claude与Codex，两条通往长任务的路在AI编程工具的竞技场上，Claude和Codex的竞争是观察Agent能力演进的最佳窗口。它意味着Agent能否在长任务中记住早期阶段的关键信息，能否","collect":0,"end_time":0,"defaultTopTitle":"lanjinger.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"BK4528":"SaaS概念","BK4585":"ETF&股票定投概念","BK4023":"应用软件","AIYY":"YIELDMAX AI OPTION INCOME STRATEGY ETF","AI":"C3.ai, Inc.","CHAT":"ROUNDHILL GENERATIVE AI & TECHNOLOGY ETF","BK4543":"AI","AGIX":"通用人工智能 ETF-AGIX","AIPO":"Defiance AI and Power Infrastructure ETF","BK4551":"寇图资本持仓","BK4587":"ChatGPT概念","BK4588":"碎股"},"translate_title":"Long task is the only criterion to verify the level of Agent","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"AIYY":0.6,"AIPO":0.9,"AI":0.9,"AGIX":0.9,"CHAT":0.9},"content_text":"文｜锦缎检验Agent水平的唯一标准是长任务。这个判断，建立在一个简单的事实上：短任务可以靠记忆完成，长任务必须靠理解完成。短任务中，模型只需处理当前输入；长任务中，模型需要保持上下文的连贯性，需要在数百步后还记得最初的意图，需要在遇到异常时自主调整策略。学术基准的残酷数据告诉我们，当前最顶尖的Agent在长任务中的通过率不足20%，而且随着任务迭代，代码质量持续恶化。这不是一个可以通过增加参数量来解决的问题，而是需要重新思考Agent架构，一个从上下文管理到工作流编排、从多智能体协作到纵深防御的系统性工程。Claude与Codex的竞争，揭示了两种不同的进化路径。Claude强化上下文容量与协作能力，Codex强化超人类调试与自我进化。这两条路径并不互斥。真正能够攻克长任务的Agent，可能同时需要两者的优势。而Token经济学的兴起，则为长任务提供了商业价值的锚点。当Agent能够完成人类需要数小时甚至数天的复杂任务，消耗百万级Token的成本就变得微不足道。问题在于，如何让Agent的完成率从20%提升到80%，如何让代码质量在迭代中不退化，如何在不确定性中保持稳定。这些问题没有简单的答案。但有一点是确定的：在这个Agent元年的春天，长任务能力不再是一个技术指标，而是区分“玩具”与“工具”的唯一标准。能完成长任务的Agent，其Token才有价值，其商业模型才有意义，其存在才能重构人类的工作流与生活流。01从短任务到长任务，Agent的成人礼2026年被多方确认为“智能体元年”。这个判断背后的真实含义是：AI正在从“回答问题的人”变成“完成任务的人”。第三波AI浪潮的核心是自主执行，而不再是辅助性质的Copilot。这个转变听起来简单，但它在工程层面的含义是颠覆性的。过去两年，大模型竞争的核心叙事一直是模型能力本身：参数规模有多大，推理深度有多强，复杂任务的单步完成率有多高。这些指标在Chatbot时代是有效的，因为那时候AI的角色是“回答者”，你问一句，它答一句，任务在单轮交互中结束。但当AI开始扮演“执行者”，规则彻底改变了。一个稍微复杂的任务，比如从零开发一个网页应用，或者跨系统完成一份数据分析报告，需要几十甚至上百个步骤：理解需求、拆解任务、调用工具、处理异常、验证结果、自我修正。每一步都可能出错，每一步的错误都会累积。这意味着，短任务能力是各家模型都能做到的，它本质上只是披着Agent外衣的编程自动化。而长任务能力，才是Agent真正的入门门槛，它考验的不仅仅是模型的推理能力，更是上下文管理的精度、工作流编排的韧性、以及对不确定性的处理能力。2026年2月发布的LongCLI-Bench，专门测试Agent在真实开发场景中的长任务能力。评测集涵盖了从零开发、功能添加、错误修复到代码重构四大工程类别，每个任务都需要数十步的连续操作。结果令人警醒：即使是最先进的Agent，通过率也低于20%。更值得玩味的是失败模式：大部分任务在完成度不到30%的阶段就已停滞，关键失败往往发生在早期阶段。这意味着当前最顶尖的Agent，在面对真正的长任务时，连“开个好头”都做不到。它们可以在单步任务中表现出惊人的能力，但当任务的链条拉长、依赖关系变得复杂、需要持续的上下文记忆和策略调整时，它们就会迷失。图表另一项名为SlopCodeBench的研究揭示了更深层的问题。该研究追踪了Agent在迭代式任务中的表现，发现了一个系统性的退化模式：随着任务迭代次数的增加，Agent生成的代码质量持续下降。80%的轨迹中出现了结构侵蚀，近90%的轨迹中冗余代码比例上升。研究团队对比了Agent代码与48个开源Python仓库中的代码，发现Agent代码的冗余度是人工代码的2.2倍，结构侵蚀程度也明显更严重。当追踪20个代码仓库随时间的演变时，人类代码的质量保持稳定，而Agent代码随着每次迭代都在恶化。图表：Agent代码冗余度随迭代次数持续上升，而人类代码保持稳定。数据来源：SlopCodeBench，2026年3月。这一发现揭示了一个根本性的问题：当前的Agent缺乏那种在复杂任务中保持结构一致性、不被短期需求带偏的能力。而这种能力，恰恰是长任务成功的核心。Claude与Codex，两条通往长任务的路在AI编程工具的竞技场上，Claude和Codex的竞争是观察Agent能力演进的最佳窗口。2026年2月5日，Anthropic与OpenAI同日发布了各自的王牌模型：Claude Opus 4.6与GPT-5.3-Codex。这场正面交锋，表面上是一场性能竞赛，实质上是对Agent核心能力的两种不同理解。Claude的路线：长上下文与团队协作Claude Opus 4.6最关键的升级是上下文窗口从20万token直接跃升至100万token。这意味着你可以把整个项目的代码库一次性喂给它，它能同时看到项目里所有文件，理解整体架构。但真正的杀手锏并非单纯的长上下文，而是Anthropic在“上下文拆分”上的精细设计。前OpenAI Codex核心研发者Calvin French-Owen在一档播客中直言，Claude Code最厉害的地方，就是其上下文拆分能力。当面对复杂任务时，Claude Code会自动生成多个探索型子智能体，这些子智能体会通过工具扫描整个文件系统、检索相关内容，而且每个子智能体都有独立的上下文窗口。完成任务后，它们会将关键信息汇总反馈给主智能体。这种设计的意义在于显著降低了“上下文噪音”。在代码仓库这样信息密度极高的环境中，不是所有信息都同等重要。Claude的策略是让专门的子智能体去探索、筛选、总结，然后只将最关键的信息传递给主智能体。这种分工协作的模式，使主智能体能够专注于高层决策，而不会被底层细节淹没。图表：上下文容量提升5倍，关键信息检索能力提升4倍。（Claude Opus 4.6 vs前代）；数据来源：Anthropic官方技术报告。Codex的路线：超人类调试与自我进化相比之下，OpenAI的GPT-5.3-Codex选择了另一条路。Calvin French-Owen的评价是：Codex很有“个性”，像AlphaGo，在调试复杂问题时的表现堪称超人类，很多Opus模型解决不了的问题，Codex都能搞定。Codex的核心优势在于其“自我构建”能力。它是OpenAI第一个帮助构建自己的模型。Codex团队用Codex来调试自己的训练过程、管理自己的部署、诊断测试结果和评估。这种“AI自己造AI”的反馈循环，意味着进化速度会越来越快。在产品理念上，OpenAI更关注做出最强的大模型（即AGI）。这体现在Codex的设计中：它不追求最优雅的交互，不追求最透明的决策过程，它追求的是在最困难的调试场景中，找到人类找不到的解决方案。两种路线的本质Claude和Codex的竞争，揭示了Agent核心能力的两个维度。第一个维度是上下文容量。Claude Opus 4.6在MRCR v2测试（专门测试AI在海量文本中找信息的能力）中得分76%，而Sonnet 4.5只有18.5%。这76%对18.5%的差距，不是量变，是质变。它意味着Agent能否在长任务中记住早期阶段的关键信息，能否在任务推进数百步后仍然不丢失最初的目标。第二个维度是上下文质量。Calvin French-Owen分享了一个非常实用的经验：当上下文token占用超过50%时，他会主动清理。他用一种“金丝雀检测”方法——在上下文里埋入一些无关但可验证的小信息，一旦模型开始遗忘，说明上下文已经被污染。这两个维度的结合，构成了Agent长任务能力的核心公式：长任务能力=上下文容量×上下文质量仅有容量，没有质量，Agent会在信息的汪洋中迷失；仅有质量，没有容量，Agent无法处理真正的复杂任务。能完成长任务的Agent，其Token才有价值当Agent开始执行长任务，Token的角色从技术副产品转变为战略资产。Token正在成为AI时代的“新大宗商品”，标准化、可计量、可交易。无问芯穹联合创始人夏立雪的体验很有代表性：从2026年1月开始，公司Token消耗每两周翻一番，至今已经翻了10倍。这种增长速度，上一次出现还是在3G手机流量时代。但两者的含义完全不同：3G流量的增长代表用户行为的迁移，Token消耗的增长代表经济活动本身的AI化。锦缎研究院早在 2025 年就敏锐地捕捉到了这一趋势，在其文章《Token 将成为未来世界最重要资源》中率先提出了“Token 经济学”的概念框架，指出 Token 将作为衡量智能时代价值的基本单位，重塑资源配置的逻辑。2026年GTC大会上，黄仁勋正式提出“Token经济学”概念，让这一概念被更广泛地认知。Agent当下已经成为大模型最核心的工作负载，Token则是驱动数字经济的核心生产要素。国家数据局在2026年3月将Token的官方翻译定为“词元”，并指出其是“智能时代的价值锚点”。Token消耗与任务长度之间存在正相关关系。但更重要的是，Token的价值密度随着任务长度而增加。图表4：长任务Token消耗量级对比，长任务Token消耗可达百万级，是短任务的数十甚至数百倍。在短任务场景中，Token的价值是线性的：1000个Token完成一个问答，价值有限。但在长任务场景中，Token的价值是指数级的：百万级Token完成一个完整的软件开发任务，其产出可能是数万美元的商业价值。这解释了为什么商业模式正在从订阅制向Token制迁移。但这同时也带来了新的挑战。一旦Agent高频自动运转，不可控的庞大算力消耗让企业客户难以承受成本压力。这意味着，长任务的商业价值不仅体现在它能完成什么，还体现在它消耗多少Token——以及这些Token的定价权掌握在谁手中。AI对SaaS赛道最深远的冲击，是对其底层按坐席收费模式的结构性瓦解。AI作为数字劳动力，客观具备消减人类工作量的属性，这直接威胁了传统SaaS赖以生存的年度经常性收入增长逻辑。图表：Agent商业模式迁移：License → Token →结果付费。长任务的价值锚定是这一迁移的关键。来源：锦缎研究院行业的终局愿景，是迈向按业务价值或最终结果付费的模式。但这一模式面临一个根本性的度量难题：当任务足够长、足够复杂，AI的贡献与人类的贡献便深度交织、难以分割。这种价值归因的困境，并非某个特定场景下的技术问题，而是智能体商业模式必须面对的核心命题。这些问题没有现成的答案。但可以肯定的是，在智能体元年的春天，对长任务能力的探索，不再仅仅是技术指标的角逐，而是决定AI能否从“玩具”蜕变为“工具”的关键一跃。围绕上下文容量与质量、多智能体协作、纵深防御的编排系统以及Token经济学的持续创新，正共同描绘着这幅从“回答问题”到“完成任务”的宏大图景。这场变革的终局，将深刻地重塑我们与数字世界互动的方式，以及商业价值创造的底层逻辑。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":1,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[],"hasMoreComments":false,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"isCrawlerRequest":true}