阿里云通义开源最强过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误

快科技2025-01-16

快科技1月16日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。据了解，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，通义团队还开源了首个步骤级的评估标准 ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。与此同时，为更好衡量模型...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2503495369?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-01-16 15:05","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2503495369","market":"hk","top_or_hot":-1,"title":"阿里云通义开源最强过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误","media":"快科技","content":"<div>\n<p>快科技1月16日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。据了解，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，通义团队还开源了首个步骤级的评估标准 ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。与此同时，为更好衡量模型...</p>\n\n<a href=\"https://tech.ifeng.com/c/8gBsuQCXY4u\">网页链接</a>\n\n</div>\n","source":"fenghuang_stock","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>阿里云通义开源最强过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n阿里云通义开源最强过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-01-16 15:05 北京时间&nbsp;&nbsp;&nbsp;<a href=https://tech.ifeng.com/c/8gBsuQCXY4u><strong>快科技</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>快科技1月16日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。据了解，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，通义团队还开源了首个步骤级的评估标准 ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。与此同时，为更好衡量模型...</p>\n\n<a href=\"https://tech.ifeng.com/c/8gBsuQCXY4u\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0345776255.USD","symbol_name":"NINETY ONE GSF ASIAN EQUITY \"A\" (USD) INC","start_time":0,"source_url":"https://tech.ifeng.com/c/8gBsuQCXY4u","article_id":"2503495369","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2503495369","pubTimestamp":1737011137,"columns":[],"sourceInfo":{"source_id":"fenghuang_stock","name":"凤凰网"},"weMediaInfo":null,"summary":"快科技1月16日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。同时，通义团队还开源了首个步骤级的评估标准 ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。这证明了过程奖励模型能够显著提高推理的可靠性，为未来开发推理过程监督技术开辟了新的途径。","collect":0,"end_time":0,"defaultTopTitle":"ifeng.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"89988":"阿里巴巴-WR","LU0345776255.USD":"NINETY ONE GSF ASIAN EQUITY \"A\" (USD) INC","LU0543330566.HKD":"TEMPLETON BRIC \"A\" (HKD) ACC","LU0048580855.USD":"富达大中华区A","LU0823397103.USD":"BNP PARIBAS SUSTAINABLE ASIA EX-JAPAN EQUITY \"C\" (USD) ACC","LU1323998911.USD":"BGF ASIAN MULTI-ASSET INCOME \"A\" (USD) ACC","LU0873338254.USD":"FULLERTON LUX FUNDS - ASIA GROWTH & INCOME EQUITIE \"I\" (USD) INC","LU0211977185.USD":"EASTSPRING INVESTMENTS GREATER CHINA EQUITY \"A\" ACC","LU0672654166.SGD":"FTIF - Templeton Asian Growth A (acc) SGD-H1","HBBD.SI":"Alibaba HK SDR 5to1","LU0164880469.USD":"HSBC GIF HONG KONG EQUITY \"AC\" ACC","LU2293587155.HKD":"ALLIANZ ORIENTAL INCOME \"AT\" (HKD) ACC","LU0348827113.USD":"ALLIANZ RCM CHINA \"AT\" ACC","IE0032431581.USD":"PINEBRIDGE GREATER CHINA EQUITY \"A\" (USD) ACC","LU1981816686.USD":"EASTSPRING INV ASIAN MULTI FACTOR EQUITY \"A\" (USD) ACC","LU1048588211.SGD":"Blackrock Asian Dragon A2 SGD-H","LU0261950983.USD":"FIDELITY ASIAN SPECIAL SITUATIONS \"A\" ACC","SG9999000459.SGD":"Aberdeen Standard Pacific Equity SGD","LU0979878070.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"A\" (USD) ACC","LU0819121731.USD":"HSBC GIF MANAGED SOLUTIONS ASIA FOCUSED GROWTH \"AC\" (USD) ACC","LU0516422366.SGD":"Fullerton Lux Funds - Asia Focus Equities A Acc SGD","LU0370786039.SGD":"Fidelity Greater China A-SGD","LU0049853897.USD":"SCHRODER ISF EMERGING MARKETS \"A\" (USD) INC AV","LU0862451753.SGD":"JPMorgan Funds - Emerging Markets Dividend A (mth) SGD","LU0608807946.USD":"TEMPLETON EMERGING MARKETS DYNAMIC INCOME \"A\" Q (USD) INC","LU0048597586.USD":"富达亚洲焦点A","LU0326950275.SGD":"Schroder ISF China Opportunities A Acc SGD-H","IE00BMPRXN33.USD":"NEUBERGER BERMAN 5G CONNECTIVITY \"A\" (USD) ACC","PRM":"Perimeter Solutions, SA","LU1880383440.USD":"AMUNDI FUNDS CHINA EQUITY \"A2\" (USD) INC","LU0329678337.USD":"FIDELITY EMERGING ASIA \"A\" (USD)","BK1521":"挪威政府全球养老基金持仓","LU2257852520.SGD":"JPMorgan Funds - Asia Growth A (acc) SGD","HK0000306701.USD":"TAIKANG KAITAI CHINA NEW OPPORTUNITIES FUND \"A\" (USD) INC","LU0791590937.USD":"ALLSPRING  EMERGING MARKTES EQUITY INCOME \"A\" (USD)","LU1961090484.USD":"ALLIANZ ALL CHINA EQUITY \"A\" (USD) INC","LU0128522157.USD":"TEMPLETON ASIAN GROWTH \"A\" ACC","LU0149721374.USD":"HSBC GIF HONG KONG EQUITY \"AD\" INC","LU1810669033.SGD":"FTIF - Templeton Emerging Markets Dynamic Income A (Mdis) SGD-H1","BK1586":"云计算","LU1201861165.SGD":"Natixis Harris Associates Global Equity PA SGD","LU1282649810.SGD":"Allianz Asian Multi Income Plus Cl AMg DIS H2-SGD","LU0589944569.HKD":"ALLIANZ EMERGING ASIA EQUITY \"AT\" (HKD) ACC","BK4109":"特种化学制品","LU0708995583.HKD":"TEMPLETON CHINA \"A\" (HKD) ACC","09988":"阿里巴巴-W","LU0821914370.USD":"贝莱德亚洲成长领袖A2","LU0228367735.SGD":"Eastspring Investments - Asian Equity Fund AS SGD","LU0315178854.USD":"EASTSPRING INVESTMENTS ASIAN EQUITY INCOME \"A\" ACC","BABA":"阿里巴巴"},"translate_title":"Alibaba Cloud Tongyi Open Source's strongest process reward PRM model, 7B size can find inference errors better than GPT-4o","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"89988":0.6,"BABA":0.6,"09988":1,"HBBD.SI":0.6,"PRM":1},"content_text":"快科技1月16日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。据了解，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，通义团队还开源了首个步骤级的评估标准 ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。与此同时，为更好衡量模型识别数学推理中错误步骤的能力，通义团队还提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成，其中还包含奥赛难度的题目，每个案例都有人类专家标注的逐步推理过程，可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。此外，在ProcessBench上对错误步骤的识别能力的评估中，72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势，7B版本的PRM模型不但超越同尺寸开源PRM模型，甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型（PRM）能够显著提高推理的可靠性，为未来开发推理过程监督技术开辟了新的途径。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":false,"editions":null,"column":"","sentiment":"1","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":0,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"isLaohu8Offline":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.44.1","shortVersion":"4.44.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2503495369","isCrawlerRequest":true}