微软开源Phi-4推理模型：啰嗦AI，反卷出圈

大数据文摘2025-05-08

AI圈子最有意思的事，已经不是“谁家模型参数最多”，而是——谁家小模型，能把大模型打趴下。最近，微软研究院开源了一款“小而强”的研究：Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。14B参数，不到DeepSeek 70B的五分之一，但数学、科学、代码、逻辑推理的表现，都比较能打。在AIME 2025数学考试上，14B的小模型，第一次尝试的全题正确率，...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2533908445?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-05-08 17:32","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2533908445","market":"us","top_or_hot":-1,"title":"微软开源Phi-4推理模型：啰嗦AI，反卷出圈","media":"大数据文摘","content":"<div>\n<p>AI圈子最有意思的事，已经不是“谁家模型参数最多”，而是——谁家小模型，能把大模型打趴下。最近，微软研究院开源了一款“小而强”的研究：Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。14B参数，不到DeepSeek 70B的五分之一，但数学、科学、代码、逻辑推理的表现，都比较能打。在AIME 2025数学考试上，14B的小模型，第一次尝试的全题正确率，...</p>\n\n<a href=\"https://tech.ifeng.com/c/8jBvtWFOAtj\">网页链接</a>\n\n</div>\n","source":"fenghuang_stock","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>微软开源Phi-4推理模型：啰嗦AI，反卷出圈</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n微软开源Phi-4推理模型：啰嗦AI，反卷出圈\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-05-08 17:32 北京时间&nbsp;&nbsp;&nbsp;<a href=https://tech.ifeng.com/c/8jBvtWFOAtj><strong>大数据文摘</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>AI圈子最有意思的事，已经不是“谁家模型参数最多”，而是——谁家小模型，能把大模型打趴下。最近，微软研究院开源了一款“小而强”的研究：Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。14B参数，不到DeepSeek 70B的五分之一，但数学、科学、代码、逻辑推理的表现，都比较能打。在AIME 2025数学考试上，14B的小模型，第一次尝试的全题正确率，...</p>\n\n<a href=\"https://tech.ifeng.com/c/8jBvtWFOAtj\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU0795875086.SGD","symbol_name":"JPMorgan Investment Funds - Global Income A (div) SGD","start_time":0,"source_url":"https://tech.ifeng.com/c/8jBvtWFOAtj","article_id":"2533908445","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2533908445","pubTimestamp":1746696778,"columns":[],"sourceInfo":{"source_id":"fenghuang_stock","name":"凤凰网"},"weMediaInfo":null,"summary":"最近，微软研究院开源了一款“小而强”的研究：Phi-4-reasoning-plus。Phi-4-reasoning-plus在SFT之后，还加了一层 基于规则的强化学习 ，奖励设计也很精妙：答对了鼓励简洁答错了反而鼓励啰嗦输出格式不对、思路紊乱要扣分重复语句有惩罚，鼓励多样性和探索这和传统RLHF不同，Phi-4团队用的是可自动验证的数学题，奖励函数直接和推理链长度、答案正确性挂钩，模型被训练成“有错就多想、多写，多步反省”。","collect":0,"end_time":0,"defaultTopTitle":"ifeng.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU0795875086.SGD":"JPMorgan Investment Funds - Global Income A (div) SGD","LU0061474705.USD":"THREADNEEDLE (LUX) GLOBAL DYNAMIC REAL RETURN \"AU\" (USD) ACC","BK4527":"明星科技股","LU0466842654.USD":"HSBC ISLAMIC GLOBAL EQUITY INDEX \"A\" (USD) ACC","SG9999001424.SGD":"United E-Commerce Fund SGD","LU0215105999.USD":"SCHRODER ISF GLOBAL EQUITY \"A\" ACC","LU2097344431.USD":"SCHRODER ISF SUSTAINABLE MULTI-ASSET INCOME \"A\" (USDHDG) INC","LU2089284900.SGD":"Allianz Global Sustainability Cl AM Dis H2-SGD","IE00BBT3K403.USD":"LEGG MASON CLEARBRIDGE TACTICAL DIVIDEND INCOME \"A(USD) ACC","LU0225283273.USD":"SCHRODER ISF GLOBAL EQUITY ALPHA \"A\" (USD) ACC","BK4567":"ESG概念","LU2413666699.HKD":"BNP PARIBAS GLOBAL ENVIRONMENT \"CRH\" (HKDHDG) INC","BK4534":"瑞士信贷持仓","LU1221951046.USD":"NORDEA 1 STABLE RETURN \"HM\" (USDHDG) INC","LU0128525929.USD":"TEMPLETON GLOBAL \"A\" (USD) ACC","LU2271345857.HKD":"ALLIANZ GLOBAL SUSTAINABILITY \"AT\" (HKD) ACC","IE00BYQQ9H92.USD":"BNY MELLON GLOBAL LEADERS \"A\" (USD) ACC","BK4533":"AQR资本管理(全球第二大对冲基金)","LU0823434583.USD":"BNP PARIBAS US GROWTH \"C\" (USD) ACC","LU0251132253.USD":"FIDELITY FUNDS  GLOBAL THEMATIC OPPORTUNITIES \"A\" (USD) ACC","LU1244550577.SGD":"FTIF - Franklin Global Multi-Asset Income A (Mdis) SGD-H1","LU0792757196.USD":"TEMPLETON SHARIAH GLOBAL EQUITY FUND \"A\" (USD) ACC","MSFT":"微软","LU1935043536.SGD":"MANULIFE GF GLOBAL MULTI-ASSET DIVERSIFIED INCOME \"AA\" (SGDHDG) INC A","LU0127658192.USD":"EASTSPRING INVESTMENTS GLOBAL TECHNOLOGY \"A\" (USD) ACC","BK4535":"淡马锡持仓","LU0345770993.USD":"NINETY ONE GSF GLOBAL STRATEGIC EQUITY \"A\" (USD) INC","LU2360108059.USD":"BGF CIRCULAR ECONOMY \"A4\" (USD) INC","LU1496350171.SGD":"FRANKLIN DIVERSIFIED BALANCED \"A\" (SGDHDG) ACC","SG9999017495.SGD":"UGDP UNITED GLOBAL QUALITY GROWTH \"B\" (SGD) ACC","BK4577":"网络游戏","LU1564329628.SGD":"Blackrock Dynamic High Income A2 SGD-H","LU0345768153.USD":"NINETY ONE GSF GLOBAL STRATEGIC MANAGED \"A\" (USD) ACC","IE00BLSP4239.USD":"Legg Mason ClearBridge - Tactical Dividend Income A Mdis USD Plus","BK4550":"红杉资本持仓","LU2065170008.USD":"M&G (LUX) GLOBAL MAXIMA \"A\" (USD) INC","LU0757359954.USD":"SCHRODER ISF GLOBAL MULTI-ASSET INCOME \"A\" (USD) INC MF","LU2065171311.SGD":"M&G (LUX) GLOBAL MAXIMA \"A\" (SGD) ACC","SG9999018865.SGD":"United Global Quality Growth Fd Cl Dist SGD-H","LU0553294199.USD":"BGF GLOBAL EQUITY INCOME \"A5G\" (USD) INC","LU0096362180.USD":"CT (LUX) I GLOBAL FOCUS \"DU\" (USD)","IE00BJJMRX11.SGD":"Janus Henderson Balanced A Acc SGD","LU1718418525.SGD":"JPMorgan Investment Funds - Global Select Equity A (acc) SGD","LU1803068623.USD":"TEMPLETON GLOBAL CLIMATE CHANGE \"AH1\" (USDHDG) ACC","LU2756315664.SGD":"ALLIANZ INCOME AND GROWTH \"AMI\" (SGDHDG) INC","LU1721428933.USD":"法巴全球经典环境基金RH MD Dis","LU0079474960.USD":"联博美国增长基金A","LU1235295455.SGD":"Fidelity Global Multi Asset Growth & Income A-ACC-SGD","LU2286300806.USD":"Allianz Cyber Security AT Acc USD","LU1582987597.SGD":"M&G (LUX) INCOME ALLOCATION \"A-H\" (SGDHDG) INC"},"translate_title":"Microsoft's open source Phi-4 inference model: long-winded AI, reversed out of the circle","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"MSFT":1},"content_text":"AI圈子最有意思的事，已经不是“谁家模型参数最多”，而是——谁家小模型，能把大模型打趴下。最近，微软研究院开源了一款“小而强”的研究：Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。14B参数，不到DeepSeek 70B的五分之一，但数学、科学、代码、逻辑推理的表现，都比较能打。在AIME 2025数学考试上，14B的小模型，第一次尝试的全题正确率，居然干过了70B的精炼大块头，甚至快摸到DeepSeek 671B的脚后跟。微软团队用一串“推理链”打破了常规，让AI学会慢下来、啰嗦一点、反复琢 磨、允许自己犯错，主要体现在：推理链（Chain-of-Thought）成为核心训练目标 。不是像传统大模型那样直接给出答案，而是专门训练模型写“推理过程”；在训练数据和输出里，强制要求模型用<think>...</think>标签，把自己的思考、分步推理、反复验证详细写出来。这种推理链往往很“啰嗦”：不是一句话解决问题，而是像人类一样，细致分解、逐步排查。鼓励“慢思考”，奖励啰嗦的推理过程。 在RL（强化学习）阶段，奖励机制被专门设计成：答错时鼓励更长推理链，答对时鼓励简洁；只要模型没答对，就鼓励它“多想两步”，推理过程可以更长、更详细，甚至反复自我否定和修正。结果？不仅答案对，思路也清晰。技术报告里有个细节特别有意思：Phi-4-reasoning的推理链，不是越长越好，也不是越短越强，而是“刚刚好”地模拟了人类的“思考长度”。RL阶段的奖励模式具体是：“答对了要简洁，答错了反而鼓励多思考”，而有些任务，答题过程还会“自我否定”，甚至推翻重来。当然，不是所有领域都大幅提升，比如生物、化学、离散数学，AI也会“卡壳”。Phi-4-reasoning-plus在SFT（有监督微调）之后，还加了一层 基于规则的强化学习 ，奖励设计也很精妙：答对了鼓励简洁（奖励简短推理）答错了反而鼓励啰嗦（奖励多想一步）输出格式不对、思路紊乱要扣分重复语句有惩罚，鼓励多样性和探索这和传统RLHF（基于人类反馈强化学习）不同，Phi-4团队用的是可自动验证的数学题，奖励函数直接和推理链长度、答案正确性挂钩，模型被训练成“有错就多想、多写，多步反省”。Phi-4推理模型在跨领域基准测试中的表现报告里的评测结果，Phi-4-reasoning和plus不仅在AIME、OmniMath、GPQA等数学/科学基准上干翻了体量更大的Distill-Llama-70B、DeepSeek-R1，甚至在算法（TSP/3SAT）、规划（BA-Calendar）、代码（LiveCodeBench）等新领域也展现了极强的“迁移力”,而这些领域，模型训练时根本没专门覆盖。这就是推理链带来的元能力：模型不仅会解题，更会“怎么推理”，新题型也能举一反三，遇到没见过的难题也能慢慢推、反复试。对比传统大模型“一步到位”的完美答案，这种“磨叽”的AI反而更靠谱、更有韧性。甚至在一些“非推理”任务，如长文本问答、指令遵循、毒性检测等通用能力测试中，Phi-4-reasoning-plus也有显著提升。归根结底，让AI学会慢思考、会自我检视，比单纯提升算力和知识面更可持续。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":0,"need_auth":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.36.2","shortVersion":"4.36.2","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2533908445","isCrawlerRequest":true}