登顶 SWE-Bench，快手 KAT-Dev-72B-Exp 刷新开源 SOTA

IT之家10-14

大规模强化学习作为关键路径，能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期，快手 Kwaipilot 团队重磅发布的 KAT-Dev-72B-Exp，在软件开发能力评测基准 SWE-Bench Verified 上取得了 74.6% 的卓越表现，创下开源模型领域新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本，我们借助这一开源模型揭秘 KAT-...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2575292932?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-10-14 19:35","share_image_url":"https://static.laohu8.com/f0343184bd9b9c963ed02b302442e2b8","id":"2575292932","market":"sg","top_or_hot":-1,"title":"登顶 SWE-Bench，快手 KAT-Dev-72B-Exp 刷新开源 SOTA","media":"IT之家","content":"<div>\n<p>大规模强化学习作为关键路径，能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期，快手 Kwaipilot 团队重磅发布的 KAT-Dev-72B-Exp，在软件开发能力评测基准 SWE-Bench Verified 上取得了 74.6% 的卓越表现，创下开源模型领域新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本，我们借助这一开源模型揭秘 KAT-...</p>\n\n<a href=\"http://stock.10jqka.com.cn/hks/20251014/c671724366.shtml\">网页链接</a>\n\n</div>\n","source":"tonghuashun","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>登顶 SWE-Bench，快手 KAT-Dev-72B-Exp 刷新开源 SOTA</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n登顶 SWE-Bench，快手 KAT-Dev-72B-Exp 刷新开源 SOTA\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-10-14 19:35 北京时间&nbsp;&nbsp;&nbsp;<a href=http://stock.10jqka.com.cn/hks/20251014/c671724366.shtml><strong>IT之家</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>大规模强化学习作为关键路径，能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期，快手 Kwaipilot 团队重磅发布的 KAT-Dev-72B-Exp，在软件开发能力评测基准 SWE-Bench Verified 上取得了 74.6% 的卓越表现，创下开源模型领域新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本，我们借助这一开源模型揭秘 KAT-...</p>\n\n<a href=\"http://stock.10jqka.com.cn/hks/20251014/c671724366.shtml\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"BK0046","symbol_name":"生物疫苗","start_time":0,"source_url":"http://stock.10jqka.com.cn/hks/20251014/c671724366.shtml","article_id":"2575292932","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2575292932","pubTimestamp":1760441700,"columns":[],"sourceInfo":{"source_id":"tonghuashun","name":"同花顺"},"weMediaInfo":null,"summary":"大规模强化学习作为关键路径，能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期，快手 Kwaipilot 团队重磅发布的 KAT-Dev-72B-Exp，在软件开发能力评测基准 SWE-Bench Verifi ...","collect":0,"end_time":0,"defaultTopTitle":"10jqka.com.cn","property":[],"viewcount":null,"language":"zh","relate_stocks":{"300109":"新开源","BK0046":"生物疫苗","BK0042":"基因检测","BK0229":"化学制品"},"translate_title":"Reaching the top of SWE-Bench, Kuaishou KAT-Dev-72B-Exp refreshes open source SOTA","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"300109":1.5},"content_text":"大规模强化学习作为关键路径，能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期，快手 Kwaipilot 团队重磅发布的 KAT-Dev-72B-Exp，在软件开发能力评测基准 SWE-Bench Verified 上取得了 74.6% 的卓越表现，创下开源模型领域新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本，我们借助这一开源模型揭秘 KAT-Coder 在大规模强化学习方向上的技术创新。　　在 SWE-Bench Verified 上，和全尺寸开源模型对比，KAT-Dev-72B-Exp 以 74.6% 的卓越性能创下新纪录　　作为 Kwaipilot 在端到端复杂强化学习领域的前沿探索成果，该模型基于自研 SeamlessFlow 工业级强化学习框架，通过创新的数据平面架构实现了训练逻辑与 Agent 的完全解耦，成功支持多智能体和在线强化学习等复杂场景。针对复杂 Agent 场景的技术挑战，团队创新性地引入 Trie Packing 机制，并对训练引擎进行了重构优化，使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化，实现了探索与利用的平衡，并结合基于开源仓库构建的大规模端到端可验证软件工程任务，KAT-Dev-72B-Exp 在编程领域展现出强大的能力。　　在 agentic RL 训练过程中，模型训练的成功离不开高效、可扩展的数据环境支撑。传统方法往往局限于单一数据集和固定框架，导致模型在面对复杂现实场景时表现欠佳。通过持续的实践探索，Kwaipilot 团队逐渐意识到大规模 scaling 数据环境的重要性。这不仅是数据量的堆积，更是构建一个动态、灵活的生态系统，让模型能够从海量且多样化的数据中汲取营养，实现从“实验室玩具”到“实战高手”的跃升。　　为此，Kwaipilot 团队正积极投入建设一套大规模数据环境管理系统。这套系统的核心在于实现训练数据、训练沙盒（sandbox）以及训练框架的完全解耦。通过这种设计，数据源可以独立扩展，而不会受限于特定框架的约束；沙盒环境则提供安全的隔离测试空间，避免干扰主流程；训练框架也能灵活切换，支持多种算法迭代。这种解耦机制极大提升了系统的模块化程度，让开发团队能够更高效地协作，避免了以往“牵一发而动全身”的瓶颈。　　更重要的是，该系统显著加速了训练数据的扩充过程。我们的数据环境管理系统采用统一的数据协议，可以快速整合开源的以及各种多源数据环境。数据环境涵盖代码、数学、游戏、博弈等多个领域。在这样的环境中，模型可以通过 RL 反复迭代，逐步适应各种复杂情境，进一步增强其泛化能力。模型不再局限于单一的环境，而是能在跨领域的环境中自适应，也更能在没有见过的环境中有更好的表现，提升其鲁棒性和实用性。 \n关注同花顺财经（ths518），获取更多机会","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"deviceId":"web-server-community-laohu8-v3","version":"4.35.9","shortVersion":"4.35.9","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2575292932","isCrawlerRequest":true}