Meta开源GCM工具包：为AI训练GPU集群“把脉问诊”，精准揪出硬件“隐形杀手”

ITBEAR科技资讯02-25

在人工智能模型参数量持续突破至万亿规模的背景下，支撑其训练的GPU集群正面临前所未有的稳定性挑战。这类由数千张显卡组成的超级计算系统，即便单个节点出现"隐性故障"——即硬件保持在线状态但计算性能显著衰减——也可能导致整个训练任务的梯度数据被污染，造成数周的算力投入付诸东流。针对这一行业痛点，meta公司近日宣布开源其自主研发的GPU集群监控工具包GCM，为高性能计算领域提供了创新的硬件管理解决方案...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2614122775?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2026-02-25 10:23","share_image_url":"https://static.laohu8.com/9a95c1376e76363c1401fee7d3717173","id":"2614122775","market":"us","top_or_hot":-1,"title":"Meta开源GCM工具包：为AI训练GPU集群“把脉问诊”，精准揪出硬件“隐形杀手”","media":"ITBEAR科技资讯","content":"<div>\n<p>在人工智能模型参数量持续突破至万亿规模的背景下，支撑其训练的GPU集群正面临前所未有的稳定性挑战。这类由数千张显卡组成的超级计算系统，即便单个节点出现\"隐性故障\"——即硬件保持在线状态但计算性能显著衰减——也可能导致整个训练任务的梯度数据被污染，造成数周的算力投入付诸东流。针对这一行业痛点，meta公司近日宣布开源其自主研发的GPU集群监控工具包GCM，为高性能计算领域提供了创新的硬件管理解决方案...</p>\n\n<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20260225104845a71c2a90&s=b\">网页链接</a>\n\n</div>\n","source":"tencent","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>Meta开源GCM工具包：为AI训练GPU集群“把脉问诊”，精准揪出硬件“隐形杀手”</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nMeta开源GCM工具包：为AI训练GPU集群“把脉问诊”，精准揪出硬件“隐形杀手”\n</h2>\n\n<h4 class=\"meta\">\n\n\n2026-02-25 10:23 北京时间&nbsp;&nbsp;&nbsp;<a href=http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20260225104845a71c2a90&s=b><strong>ITBEAR科技资讯</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>在人工智能模型参数量持续突破至万亿规模的背景下，支撑其训练的GPU集群正面临前所未有的稳定性挑战。这类由数千张显卡组成的超级计算系统，即便单个节点出现\"隐性故障\"——即硬件保持在线状态但计算性能显著衰减——也可能导致整个训练任务的梯度数据被污染，造成数周的算力投入付诸东流。针对这一行业痛点，meta公司近日宣布开源其自主研发的GPU集群监控工具包GCM，为高性能计算领域提供了创新的硬件管理解决方案...</p>\n\n<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20260225104845a71c2a90&s=b\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU2065170008.USD","symbol_name":"M&G (LUX) GLOBAL MAXIMA \"A\" (USD) INC","start_time":0,"source_url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20260225104845a71c2a90&s=b","article_id":"2614122775","we_media_id":null,"thumbnails":[],"rights":{"source":"tencent","url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20260225104845a71c2a90&s=b","rn_cache_url":null,"customStyle":"body{padding-top:10px;}#news_title{font-weight:bold;#titleStyle#;}#news_description span{font-size:12px;#descriptionStyle#;}.footer-note{#statement#}","selectors":".mod-LoadTzbdNews, body","filters":".relate-stock, .hot-list, .recom-box, .wx-sou","directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2614122775","pubTimestamp":1771986194,"columns":[],"sourceInfo":{"source_id":"tencent","name":"腾讯"},"weMediaInfo":null,"summary":"在人工智能模型参数量持续突破至万亿规模的背景下，支撑其训练的GPU集群正面临前所未有的稳定性挑战。针对这一行业痛点，meta公司近日宣布开源其自主研发的GPU集群监控工具包GCM，为高性能计算领域提供了创新的硬件管理解决方案。这种\"任务级\"监控能力使运维团队首次获得了GPU集群的\"健康透视图\"，可在故障影响训练进程前自动隔离问题节点。据实测数据显示，GCM可使大型AI训练任务的硬件故障率降低67%，算力利用率提升40%。","collect":0,"end_time":0,"defaultTopTitle":"qq.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU2065170008.USD":"M&G (LUX) GLOBAL MAXIMA \"A\" (USD) INC","LU0528227936.USD":"富达环球人口趋势基金A-ACC","LU0310799852.SGD":"FTIF - Templeton Global Equity Income A MDIS SGD","LU2357305700.SGD":"Allianz Global Artificial Intelligence ET H2-SGD","LU1670711123.USD":"M&G (LUX) GLOBAL DIVIDEND \"A\" (USD) INC","SGXZ23171101.USD":"NIKKO AM SHENTON GLOBAL OPPORTUNITIES (USD) ACC","LU0072462426.USD":"贝莱德全球配置 A2","LU1366192091.USD":"ALLIANZ US EQUITY PLUS \"AM\" (USD) INC","LU0661504455.SGD":"Blackrock Global Equity Income A5 SGD-H","GB00BDT5M118.USD":"天利环球扩展Alpha基金A Acc","IE0009G5SDU7.USD":"PIMCO BALANCED INCOME AND GROWTH \"M\" (USD) INC","IE0001KFT4U8.USD":"FTGF CLEARBRIDGE GLOBAL GROWTH LEADERS \"A\" (USD) INC","LU0466842654.USD":"HSBC ISLAMIC GLOBAL EQUITY INDEX \"A\" (USD) ACC","IE00B1XK9C88.USD":"PINEBRIDGE US LARGE CAP RESEARCH ENHANCED \"A\" (USD) ACC","LU0308772762.SGD":"Blackrock Global Allocation A2 SGD-H","IE000ITXATA3.USD":"PIMCO BALANCED INCOME AND GROWTH \"M\" (USD) ACC","LU2860962120.EUR":"CPR INVEST - ARTIFICIAL INTELLIGENCE \"A2\" (EUR) ACC A","LU1697837992.HKD":"BGF DYNAMIC HIGH INCOME \"A6\" (HKDHDG) INC","IE000YTNTUN2.SGD":"PIMCO BALANCED INCOME AND GROWTH \"M\" (SGDHDG)INC","LU0985489474.SGD":"First Eagle Amundi International AHS-C SGD-H","IE0034235188.USD":"PINEBRIDGE GLOBAL FOCUS EQUITY \"A\" (USD) ACC","LU1988902786.USD":"FULLERTON LUX FUNDS GLOBAL ABSOLUTE ALPHA \"I\" (USD) ACC","LU1642822529.SGD":"THREADNEEDLE (LUX) GLOBAL TECHNOLOGY \"A\" (SGD) ACC","LU2602419157.SGD":"HSBC ISLAMIC GLOBAL EQUITY INDEX \"AC\" (SGD) ACC","LU0878866978.SGD":"First Eagle Amundi International AHS-QD SGD-H","BK4524":"宅经济概念","LU2473716301.USD":"ALLIANZ GLOBAL INTELLIGENT CITIES INCOME \"AMF\" (USD) INC","LU1145028129.USD":"ALLIANZ INCOME AND GROWTH \"AQ\" (USD) INC","LU0719512351.SGD":"JPMorgan Funds - US Technology A (acc) SGD","LU0433182093.SGD":"First Eagle Amundi International AS-C SGD","LU1823568750.SGD":"Fidelity Global Technology A-ACC SGD","LU2463028550.USD":"AB SICAV I AMERICAN MULTI-ASSET PORTFOLIO \"A\" (USD) ACC","LU1564329115.USD":"Blackrock Dynamic High Income A6 USD","LU1914381329.SGD":"Allianz Best Styles Global Equity Cl ET Acc H2-SGD","LU2065171311.SGD":"M&G (LUX) GLOBAL MAXIMA \"A\" (SGD) ACC","LU0157215616.USD":"FIDELITY GLOBAL FOCUS \"A\" INC","LU0068578508.USD":"First Eagle Amundi International Cl AU-C USD","LU2065171402.SGD":"M&G (LUX) GLOBAL MAXIMA \"A\" (SGD) INC","LU2543165471.USD":"E FUND (HK) GLOBAL QUALITY GROWTH \"A\" (USD) ACC","LU1564329461.SGD":"Blackrock Dynamic High Income A6 SGD-H","LU1839511570.USD":"WELLS FARGO GLOBAL FACTOR ENHANCED EQUITY \"I\" (USD) ACC","LU1861559042.SGD":"日兴方舟颠覆性创新基金B SGD","LU0096362180.USD":"CT (LUX) I GLOBAL FOCUS \"DU\" (USD)","LU0795875086.SGD":"JPMorgan Investment Funds - Global Income A (div) SGD","LU1992135399.USD":"Allianz Global Intelligent Cities AT Acc USD","LU0096364046.USD":"CT (LUX) I AMERICAN \"DU\" (USD) ACC","LU2720916845.USD":"BGF GLOBAL UNCONSTRAINED EQUITY \"A2\" (USD) ACC","LU0943347566.SGD":"安联收益及增长平衡基金AM H2-SGD","LU0820562030.AUD":"ALLIANZ INCOME AND GROWTH \"AMH2\" (AUDHDG) H2 INC","LU0109392836.USD":"富兰克林科技股A","LU0210536198.USD":"JPM US GROWTH \"A\" ACC","LU0823434583.USD":"BNP PARIBAS US GROWTH \"C\" (USD) ACC","LU1564329032.USD":"BGF DYNAMIC HIGH INCOME \"A2\" (USD) ACC","LU0823434740.USD":"BNP PARIBAS US GROWTH \"C\" (USD) INC","HK0000914686.HKD":"GFI Global Select Equity Fund Class A (HKD)","LU2896262040.SGD":"JPM US GROWTH FUND \"A\" (SGD) ACC","SG9999015945.SGD":"LionGlobal Disruptive Innovation Fund A SGD","LU0354030511.USD":"ALLSPRING  U.S. LARGE CAP GROWTH \"I\" (USD) ACC","LU0354030438.USD":"富国美国大盘成长基金Cl A Acc","HK0000914660.USD":"GFI Global Select Equity Fund Class A (USD)","LU1732800096.USD":"摩根大通环球收益基金A (irc)","LU2487616109.SGD":"JPM AMERICA EQUITY \"A\" (SGD) ACC","SG9999014898.SGD":"United Global Quality Growth Fund Dis SGD","LU0444971666.USD":"天利全球科技基金","LU0210528500.USD":"JPM AMERICA EQUITY \"A\" ACC","LU1267930490.SGD":"TEMPLETON GLOBAL EQUITY INCOME \"AS\" (SGD) INC A","LU0912757837.SGD":"JPMorgan Investment Funds - Global Income A (mth) SGD-H","IE00B4YYXB79.USD":"PIMCO BALANCED INCOME AND GROWTH \"E\" (USD) ACC","LU2168564495.EUR":"AZ ALLOCATION - TREND \"AI\" (EUR) ACC","LU2168564222.USD":"AZ ALLOCATION - TREND \"AAZ\" (USDHDG) ACC","SGXZ51526630.SGD":"大华环球创新基金A Acc SGD","LU2326559502.SGD":"Natixis Loomis Sayles US Growth Equity P/A SGD-H","LU2168564065.EUR":"AZ ALLOCATION - TREND \"AAZ\" (EUR) ACC","LU2168563687.JPY":"AZ ALLOCATION - TREND \"AAZ\" (JPYHDG) ACC","LU2168564149.EUR":"AZ ALLOCATION - TREND \"BAZ\" (EUR) ACC","LU0077335932.USD":"FIDELITY AMERICAN GROWTH \"A\" INC","SG9999015986.USD":"LIONGLOBAL DISRUPTIVE INNOVATION \"I\" (USD) ACC","LU1732799900.SGD":"JPMorgan Investment Funds - Global Income A (irc) SGD-H","LU1720051017.SGD":"Allianz Global Artificial Intelligence AT Acc H2-SGD","LU0149725797.USD":"汇丰美国股市经济规模基金","LU0882574139.USD":"富达环球消费行业基金A ACC","LU0070302665.USD":"FRANKLIN MUTUAL U.S. VALUE \"A\" (USD) ACC","IE00BQXX3D17.EUR":"GUINNESS GLOBAL INNOVATORS \"C\" (EUR) ACC","LU0784385170.HKD":"BGF GLOBAL MULTI ASSET INCOME \"A6\" (HKDHGD) INC","IE00BQXX3C00.GBP":"GUINNESS GLOBAL INNOVATORS \"C\" (GBP) ACC","LU0106261372.USD":"SCHRODER ISF US LARGE CAP \"A\" ACC","LU0276348264.USD":"THREADNEEDLE (LUX) GLOBAL DYNAMIC REAL RETURN\"AUP\" (USD) INC","IE00BQXX3F31.USD":"GUINNESS GLOBAL INNOVATORS \"C\" (USD) ACC","BK4507":"流媒体概念","LU0784385840.USD":"Blackrock Global Multi-Asset Income A2 USD","LU0784383803.USD":"BGF GLOBAL MULTI-ASSET INCOME FUND \"A\" (USD) INC A","LU0265550359.USD":"BGF SYSTEMATIC GLOBAL ENHANCED EQUITY YIELD \"A2\" (USD) ACC","LU2764262908.HKD":"BGF GLOBAL UNCONSTRAINED EQUITY \"A2\" (HKD) ACC","LU2023250504.SGD":"Allianz Thematica Cl AMg DIS H2-SGD","LU1084165304.USD":"FIDELITY WORLD \"A\" (USD) ACC","LU1791710400.SGD":"Fidelity Global Demographics A-ACC-SGD","IE0034235303.USD":"PINEBRIDGE US RESEARCH ENHANCED CORE EQUITY \"A\" (USD) ACC","LU0056508442.USD":"贝莱德世界科技基金A2","LU1791710582.SGD":"Fidelity Global Demographics A-ACC-SGD (SGD/USD hedged)","GB00B4QBRK32.GBP":"FUNDSMITH EQUITY \"R\" (GBP) INC","GB00B4LPDJ14.GBP":"FUNDSMITH EQUITY \"R\" (GBP) ACC","LU0267386448.USD":"FIDELITY FIRST ALL COUNTRY WORLD \"A\" (USD) INC","IE00BKDWB100.SGD":"PINEBRIDGE US LARGE CAP RESEARCH ENHANCED \"A5H\" (SGDHDG) ACC","LU0786609619.USD":"高盛全球千禧一代股票组合Acc","LU1064131342.USD":"Fullerton Lux Funds - Global Absolute Alpha A Acc USD","LU1992135472.HKD":"ALLIANZ GLOBAL INTELLIGENT CITIES \"AT\" (HKD) ACC","LU1003077747.HKD":"BGF GLOBAL EQUITY INCOME \"A6\" (HKDHDG) INC","LU2097829019.USD":"AZ EQUITY - BORLETTI GLOBAL LIFESTYLE \"AI\" (USD) ACC","LU0724617625.USD":"BGF GLOBAL ALLOCATION \"A4\" (USD) INC","LU1232071149.USD":"AZ FUND 1 GLOBAL GROWTH SELECTOR \"AAZ\" (USDHDG) ACC","LU2236285917.USD":"ALLIANZ GLOBAL INCOME \"AMG\" (USD) INC","LU1496350502.SGD":"FRANKLIN DIVERSIFIED DYNAMIC \"A\" (SGDHDG) ACC","LU0210533765.USD":"JPM GLOBAL GROWTH \"A\" (USD) ACC","IE00B7SZLL34.SGD":"Legg Mason ClearBridge - Value A Acc SGD-H","LU0788109477.HKD":"BGF GLOBAL ALLOCATION \"A2\" (HKDHGD) ACC","IE00BJLML261.HKD":"HSBC GLOBAL EQUITY INDEX \"HCH\" (HKD) ACC","LU0234570918.USD":"高盛全球核心股票组合Acc Close","LU0316494557.USD":"FRANKLIN GLOBAL FUNDAMENTAL STRATEGIES \"A\" ACC","LU0061475181.USD":"THREADNEEDLE (LUX) AMERICAN \"AU\" (USD) ACC","LU0708995401.HKD":"FRANKLIN U.S. OPPORTUNITIES \"A\" (HKD) ACC","IE00B19Z3581.USD":"Legg Mason ClearBridge - Value A Acc USD","LU2133065610.SGD":"JPMorgan Investment Funds - Global Dividend A (mth) SGD","LU0726765562.USD":"JPM GLOBAL INCOME \"A\" (USD HEDGED) INC","LU0080751232.USD":"富达环球多元动力基金A","LU2125154778.USD":"ALLSPRING GLOBAL EQUITY ENHANCED INCOME \"A\" (USD) INC","IE00B7KXQ091.USD":"Janus Henderson Balanced A Inc USD","LU2347655073.USD":"JPM GLOBAL INCOME \"A\" (USDHDG) INC A","LU1718418525.SGD":"JPMorgan Investment Funds - Global Select Equity A (acc) SGD","LU2381873111.SGD":"BGF SYSTEMATIC GLOBAL EQUITY HIGH INCOME \"A6\" (SGDHDG) INC","LU0130102774.USD":"Natixis Harris Associates US Equity RA USD","LU0070217475.USD":"JPM GLOBAL SELECT EQUITY \"A\" ACC","LU0234572021.USD":"高盛美国核心股票组合Acc","IE00B19Z9505.USD":"美盛-美国大盘成长股A Acc","LU2764263039.SGD":"BGF GLOBAL UNCONSTRAINED EQUITY \"A2\" (SGDHDG) ACC","LU2764263203.CNY":"BGF GLOBAL UNCONSTRAINED EQUITY \"A2\" (CNYHDG) ACC","IE00BWXC8680.SGD":"PINEBRIDGE US LARGE CAP RESEARCH ENHANCED \"A5\" (SGD) ACC","LU0006306889.USD":"SCHRODER ISF US LARGE CAP \"A\" (USD) INC AV","LU0683600562.USD":"AB SELECT US EQUITY \"A\" (USD) ACC","LU0061474960.USD":"天利环球焦点基金AU Acc","BK4543":"AI","LU0672654240.SGD":"FTIF - Franklin US Opportunities A Acc SGD-H1","LU1429558221.USD":"Natixis Loomis Sayles US Growth Equity RA USD","LU2756315664.SGD":"ALLIANZ INCOME AND GROWTH \"AMI\" (SGDHDG) INC","LU1435385759.SGD":"Natixis Loomis Sayles US Growth Equity RA SGD-H","LU2264538146.SGD":"Fullerton Lux Funds - Global Absolute Alpha A Acc SGD","BK4592":"伊斯兰概念","LU1316542783.SGD":"Janus Henderson Horizon Global Technology Leaders A2 SGD","LU2347655156.SGD":"JPMorgan Investment Funds - Global Income A (icdiv) SGD-H","LU2746668461.USD":"MANULIFE DYNAMIC LEADERS \"AA\" (USD) ACC","LU0053666078.USD":"摩根大通基金-美国股票A（离岸）美元","LU0642271901.SGD":"Janus Henderson Horizon Global Technology Leaders A2 SGD-H","LU0211327993.USD":"TEMPLETON GLOBAL EQUITY INCOME \"A\" (USD) ACC","LU0082616367.USD":"摩根大通美国科技A（dist）","LU1489326972.SGD":"First Eagle Amundi International AHS-MD SGD-H","LU1551013425.SGD":"Allianz Income and Growth Cl AMg2 DIS H2-SGD","SG9999017495.SGD":"UGDP UNITED GLOBAL QUALITY GROWTH \"B\" (SGD) ACC","LU2756315318.SGD":"ALLIANZ INCOME AND GROWTH \"AMG\" (SGDHDG) INC A","LU0949170772.SGD":"Blackrock Global Equity Income A6 SGD-H","BK4077":"互动媒体与服务","LU2746668974.SGD":"MANULIFE DYNAMIC LEADERS \"AA\" (SGDHDG) ACC","LU2272731782.SGD":"Allianz Global Intelligent Cities AM Dis H2-SGD","SG9999014914.USD":"UNITED GLOBAL QUALITY GROWTH (USDHDG) INC","LU2272731600.USD":"Allianz Global Intelligent Cities AM Dis USD","SG9999002232.USD":"Allianz Global High Payout USD","IE00BJJMRX11.SGD":"Janus Henderson Balanced A Acc SGD","SG9999002224.SGD":"Allianz Global High Payout SGD","LU0738911758.USD":"Blackrock Global Equity Income A6 USD","IE00BK4W5L77.USD":"HSBC GLOBAL FUNDS ICAV US EQUITY INDEX \"HC\" (USD) ACC","LU0079474960.USD":"联博美国增长基金A","IE00BK4W5M84.HKD":"HSBC GLOBAL FUNDS ICAV US EQUITY INDEX \"HC\" (HKD) ACC","SG9999014880.SGD":"大华全球优质成长基金Acc SGD","LU0949170426.SGD":"Blackrock Global Multi-Asset Income A6 SGD-H","LU2462157665.USD":"ALLIANZ GLOBAL INCOME \"A\" (USD) INC","IE00B5949003.HKD":"JANUS HENDERSON GLOBAL TECHNOLOGY AND INNOVATION \"A\" (HKD) ACC","LU1201861249.SGD":"Natixis Harris Associates US Equity PA SGD-H","LU0980610538.SGD":"Natixis Harris Associates US Equity RA SGD-H","LU1046421795.USD":"富达环球科技A-ACC","LU0784384876.USD":"Blackrock Global Multi-Asset Income A6 USD","LU0648001328.SGD":"Natixis Harris Associates US Equity RA SGD","LU2272731865.HKD":"ALLIANZ GLOBAL INTELLIGENT CITIES INCOME \"AM\" (HKD) INC","SGXZ31699556.SGD":"UGDP UNITED GLOBAL QUALITY GROWTH \"C\" (SGDHDG) ACC","IE0004445015.USD":"JANUS HENDERSON BALANCED \"A2\" (USD) ACC","LU1366333091.USD":"FIDELITY GLOBAL FOCUS \"A\" (USD) ACC","LU1066053197.SGD":"HSBC GIF GLOBAL EQUITY VOLATILITY FOCUSED \"AM3\" (SGDHDG) INC","LU0985320562.USD":"NORDEA 1 GLOBAL STARS EQUITY \"BP\" (USD) ACC","LU0109391861.USD":"富兰克林美国机遇基金A Acc","LU1267930730.SGD":"富兰克林美国机遇基金AS Acc SGD (CPF)","LU2322448791.USD":"ALLIANZ GLOBAL INTELLIGENT CITIES INCOME \"AMG\" (USD) INC","LU2322448957.HKD":"ALLIANZ GLOBAL INTELLIGENT CITIES INCOME \"AMG\" (HKD) INC","LU0545039389.USD":"BGF GLOBAL EQUITY INCOME \"A2\" ACC","LU2461242641.AUD":"WELLINGTON US QUALITY GROWTH \"A\" (AUDHDG) ACC","LU0011850046.USD":"贝莱德全球长线股票 A2 USD","IE00BN29S564.USD":"JANUS HENDERSON BALANCED \"A3\" (USD) INC","LU0097036916.USD":"贝莱德美国增长A2 USD","LU0640476718.USD":"THREADNEEDLE (LUX) US CONTRARIAN CORE EQ \"AU\" (USD) ACC","LU1280957306.USD":"THREADNEEDLE (LUX) US CONTRARIAN CORE EQUITIES \"AUP\" (USD) INC","LU2592432038.USD":"WELLINGTON MULTI-ASSET HIGH INCOME \"A\" (USD) ACC","SG9999004303.SGD":"Nikko AM Shenton Global Opportunities SGD","LU0203347892.USD":"SCHRODER ISF QEP GLOBAL ACTIVE VALLUE \"A\" (USD)  INC AV","LU0444973449.USD":"CT (LUX) I GLOBAL TECHNOLOGY \"DU\" (USD) ACC","LU2505996681.GBP":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4H\" (GBPHDG) INC","SGXZ81514606.USD":"大华环球创新基金A Acc USD","LU0320765059.SGD":"FTIF - Franklin US Opportunities A Acc SGD","IE00BJJMRY28.SGD":"Janus Henderson Balanced A Inc SGD","LU2505996509.AUD":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4H\" (AUDHDG) INC","LU2420271590.USD":"ALLIANZ SELECT INCOME AND GROWTH \"AT\" (USD) ACC","LU2552382215.SGD":"WELLINGTON US BRAND POWER \"A\" (SGDHDG) ACC","LU2237957902.USD":"NIKKO AM GLOBAL EQUITY \"F\" (USD) ACC","LU2237957811.SGD":"NIKKO AM GLOBAL EQUITY \"F\" (SGD) ACC","LU2552382058.USD":"WELLINGTON US BRAND POWER \"A\" (USD) ACC","LU0208291251.USD":"FRANKLIN MUTUAL U.S. VALUE \"A\" (USD) INC","LU2552382132.HKD":"WELLINGTON US BRAND POWER \"A\" (HKD) ACC","IE00BJTD4N35.SGD":"Neuberger Berman US Long Short Equity A1  Acc SGD-H","LU0823421333.USD":"BNP PARIBAS DISRUPTIVE TECHNOLOGY \"C\" (USD) ACC","LU0823421416.USD":"BNP PARIBAS DISRUPTIVE TECHNOLOGY \"C\" (USD) INC","IE00B19Z8X17.USD":"FTGF CLEARBRIDGE US LARGE CAP GROWTH  \"AG\" (USD) ACC","IE0003U64NQ7.SGD":"PIMCO BALANCED INCOME AND GROWTH \"M\" (SGDHDG) ACC","LU2458330169.SGD":"FRANKLIN SHARIAH TECHNOLOGY \"A\" (SGD) ACC","IE00BFSS7M15.SGD":"Janus Henderson Balanced A Acc SGD-H","LU2247934214.USD":"FIDELITY FUNDS SUSTAINABLE FUTURE CONNECTIVITY \"A\" (USD) ACC","IE000KEQY171.SGD":"PIMCO BALANCED INCOME AND GROWTH \"M\" (SGDHDG) INC","LU2458330243.SGD":"FRANKLIN SHARIAH TECHNOLOGY \"A-H1\" (SGDHDG) ACC","IE00BMPRXR70.SGD":"Neuberger Berman 5G Connectivity A Acc SGD-H","LU1720051108.HKD":"ALLIANZ GLOBAL ARTIFICIAL INTELLIGENCE \"AT\" (HKD) ACC","LU0787776722.HKD":"AB SELECT US EQUITY PORTFOLIO \"A\" (HKD) ACC","SG9999018865.SGD":"United Global Quality Growth Fd Cl Dist SGD-H","SGXZ99366536.SGD":"United Global Innovation A Acc SGD-H","LU1670627923.USD":"M&G (LUX) NORTH AMERICAN DIVIDEND \"A\" (USD) ACC","LU2106854487.HKD":"ALLIANZ THEMATICA \"AMG\" (HKD) INC","LU2065169927.USD":"M&G (LUX) GLOBAL MAXIMA \"A\" (USD) ACC","IE00BMPRXQ63.HKD":"NEUBERGER BERMAN NEXT GENERATION CONNECTIVITY FUND \"A\" (HKDHDG) ACC","LU1670711040.USD":"M&G (LUX) GLOBAL DIVIDEND \"A\" (USD) ACC","SG9999018857.SGD":"United Global Quality Growth Fd Cl Acc SGD-H","LU1629891620.HKD":"ALLIANZ INCOME AND GROWTH \"AMG2\" (H2-HKD) INC","IE0002270589.USD":"LEGG MASON CLEARBRIDGE VALUE \"A\" (USD) INC","LU1778281490.HKD":"HSBC GIF GLOBAL LOWER CARBON EQUITY \"AD\" (HKD) INC","LU0203202063.USD":"AB SICAV I - ALL MARKET INCOME PORTFOLIO \"A2X\" (USD) ACC","IE000W1ABFV2.USD":"PIMCO BALANCED INCOME AND GROWTH \"R\" (USD) INC","IE0009356076.USD":"JANUS HENDERSON GLOBAL TECHNOLOGY AND INNOVATION \"A2\" (USD) ACC","LU0476273544.USD":"CT (LUX) I GLOBAL TECHNOLOGY \"BU\" (USD) ACC","LU2023250330.USD":"ALLIANZ INCOME AND GROWTH \"AMG\" (USD) INC","LU0353189680.USD":"富国美国全盘成长基金Cl A Acc","LU0348723411.USD":"ALLIANZ GLOBAL HI-TECH GROWTH \"A\" (USD) INC","LU0203201768.USD":"AB SICAV I - ALL MARKET INCOME PORTFOLIO \"AX\" (USD) INC","LU1917777945.USD":"安联专题基金Cl AT Acc","LU2023250843.SGD":"Allianz Thematica Cl AT Acc H2-SGD","LU0553294199.USD":"BGF GLOBAL EQUITY INCOME \"A5G\" (USD) INC","LU1699723380.USD":"ALLSPRING GLOBAL LONG/SHORT EQUITY \"AP\" (USD) ACC","LU1804176565.USD":"EASTSPRING INV GLOBAL GROWTH EQUITY \"A\" (USD) ACC","LU0353189763.USD":"ALLSPRING  US ALL CAP GROWTH FUND \"I\" (USD) ACC","LU2242650005.HKD":"FIDELITY FUNDS GLOBAL MULTI ASSET DYNAMIC \"A\" (HKD) ACC","SG9999015978.USD":"利安颠覆性创新基金A","LU0964807845.USD":"ALLIANZ INCOME & GROWTH \"A\" (USD) INC","IE00B19Z3B42.SGD":"Legg Mason ClearBridge - Value A Acc SGD","LU1852331112.SGD":"Blackrock World Technology Fund A2 SGD-H","LU2063271972.USD":"富兰克林创新领域基金","LU2213496289.HKD":"ALLIANZ INCOME AND GROWTH \"AT\" (HKD) ACC","LU1242518931.SGD":"Fullerton Lux Funds - Asia Absolute Alpha A Acc SGD","LU0127658192.USD":"EASTSPRING INVESTMENTS GLOBAL TECHNOLOGY \"A\" (USD) ACC","LU1066051498.USD":"HSBC GIF GLOBAL EQUITY VOLATILITY FOCUSED \"AM2\" (USD) INC","LU1571399168.USD":"ALLSPRING GLOBAL LONG/SHORT EQUITY \"IP\" (USD) ACC","LU1815336760.USD":"THREADNEEDLE (LUX) GLOBAL TECHNOLOGY \"AUP\" (USD) INC","LU0889565833.HKD":"FRANKLIN TECHNOLOGY \"A\" (HKD) ACC","LU0198837287.USD":"UBS (LUX) EQUITY SICAV - USA GROWTH \"P\" (USD) ACC","LU0323591593.USD":"SCHRODER ISF QEP GLOBAL QUALITY \"A\" (USD) ACC","LU1119994496.HKD":"FIDELITY WORLD \"A\" (HKD) ACC","LU1116320737.USD":"BGF SYSTEMATIC GLOBAL ENHANCED EQUITY YIELD \"A6\" (USD) INC","LU0256863902.USD":"ALLIANZ US EQUITY \"AT\" (USD) ACC","IE00B19Z8W00.USD":"FTGF CLEARBRIDGE US LARGE CAP GROWTH \"A\" INC","LU2054465674.USD":"UBS (LUX) KEY SELEC SICAV DIGITAL TRANSFORMATION T \"P\" (USD) ACC","LU0256863811.USD":"ALLIANZ US EQUITY \"A\" INC","LU2403377893.USD":"ALLIANZ SELECT INCOME AND GROWTH \"AM\" (USD) INC","LU2265009873.SGD":"Eastspring Investments - Global Growth Equity AS SGD-H","LU0215105999.USD":"SCHRODER ISF GLOBAL EQUITY \"A\" ACC","IE00B1BXHZ80.USD":"Legg Mason ClearBridge - US Appreciation A Acc USD","LU0225283273.USD":"SCHRODER ISF GLOBAL EQUITY ALPHA \"A\" (USD) ACC","LU1261432733.SGD":"Fidelity World A-ACC-SGD","LU1116320901.HKD":"BGF SYSTEMATIC GLOBAL ENHANCED EQUITY YIELD \"A6\" (HKD) INC","LU2250418816.HKD":"BGF WORLD TECHNOLOGY \"A\" (HKD) ACC","LU0211328371.USD":"TEMPLETON GLOBAL EQUITY INCOME \"A\" (MDIS) (USD)   INC","IE00BJTD4V19.USD":"NEUBERGER BERMAN US LONG SHORT EQUITY \"A1\" (USD) ACC","IE0005OL40V9.USD":"JANUS HENDERSON BALANCED \"A6M\" (USD) INC","LU0203345920.USD":"SCHRODER ISF QEP GLB ACT. VL \"A\" (USD) ACC","LU0211331839.USD":"FRANKLIN MUTUAL GLB DISCOVERY \"A\" (USD) ACC","LU1153585028.USD":"BGF GLOBAL LONG-HORIZON EQUITY  \"A4\" (USD) INC","LU1564329628.SGD":"Blackrock Dynamic High Income A2 SGD-H","LU1674673691.USD":"HSBC GIF GLOBAL LOWER CARBON EQUITY \"AD\" (USD) INC","LU1301847155.USD":"BGF GLOBAL MULTI-ASSET INCOME FUND \"A4G\" (USD) INC","LU1674673428.USD":"HSBC GIF GLOBAL LOWER CARBON EQUITY \"AC\" (USD) ACC","LU0820561818.USD":"安联收益及增长平衡基金Cl AM DIS","LU2456880835.USD":"ALLIANZ GLOBAL INCOME \"AT\" (USD) ACC","LU0820561909.HKD":"ALLIANZ INCOME AND GROWTH \"AM\" (HKD) INC","LU1551013342.USD":"Allianz Income and Growth Cl AMg2 DIS USD","LU1235294995.USD":"FIDELITY GLOBAL TECHNOLOGY \"A\" (USDHDG) ACC","LU0154236417.USD":"BGF US FLEXIBLE EQUITY \"A2\" ACC","LU0689472784.USD":"安联收益及增长基金Cl AM AT Acc","LU0345769128.USD":"NINETY ONE GSF GLOBAL EQUITY \"A\" (USD) ACC","LU2404859741.USD":"FUNDSMITH EQUITY FUND \"R\" (USD) INC","LU0957808578.USD":"THREADNEEDLE (LUX) GLOBAL TECHNOLOGY \"ZU\" (USD) ACC","LU2404859667.USD":"FUNDSMITH EQUITY FUND \"R\" (USD) ACC","LU1861558580.USD":"日兴方舟颠覆性创新基金B","LU0345769631.USD":"NINETY ONE GSF GLOBAL EQUITY \"A\" (USD) INC","LU0690374961.EUR":"FUNDSMITH EQUITY \"R\" (EUR) INC","LU1069344957.HKD":"AB SICAV I - AMERICAN GROWTH PORTFOLIO \"AD\" (HKD) INC","SG9999001077.SGD":"United International Growth Fund SGD","LU0690374615.EUR":"FUNDSMITH EQUITY \"R\" (EUR) ACC","LU1868837300.USD":"CT (LUX) I AMERICAN FUND \"9\" (USD) ACC","LU1814569148.SGD":"WELLINGTON GLOBAL QUALITY GROWTH \"D\" (SGDHDG) ACC","IE00BMPRXN33.USD":"NEUBERGER BERMAN 5G CONNECTIVITY \"A\" (USD) ACC","LU1868836914.USD":"CT (LUX) I AMERICAN \"3\" (USD) ACC","LU1868837136.USD":"CT (LUX) I AMERICAN \"8\" (USD) ACC","LU2317271919.USD":"BGF FUTURE CONSUMER \"A2\" (USD) ACC","LU0170899867.USD":"EASTSPRING INVESTMENTS WORLD VALUE EQUITY  \"A\" (USD) ACC","SG9999015952.SGD":"LIONGLOBAL DISRUPTIVE INNOVATION \"I\" (SGD) ACC","LU1868836591.USD":"CT (LUX) I AMERICAN \"1U\"(USD) ACC","LU0957791311.USD":"THREADNEEDLE (LUX) GLOBAL FOCUS \"ZU\" (USD) ACC","SG9999014906.USD":"大华全球优质成长基金Acc USD","LU1868836757.USD":"CT (LUX) I AMERICAN FUND \"2\" (USD) ACC","LU2087625088.SGD":"ALLSPRING  US ALL CAP GROWTH \"A\" (SGDHDG) ACC","META":"Meta Platforms, Inc.","LU1242518857.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"I\" (USD) ACC","LU1548497426.USD":"安联环球人工智能AT Acc","IE00B4JS1V06.HKD":"JANUS HENDERSON BALANCED \"A2\" (HKD) ACC","LU2430703095.HKD":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4\" (HKD) INC","LU1815333072.USD":"THREADNEEDLE (LUX) GLOBAL FOCUS \"AUP\" (USD) INC","LU1074936037.SGD":"JPMorgan Funds - US Value A (acc) SGD","LU2430703178.SGD":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4H\" (SGDHDG) INC","LU0795875169.SGD":"JPMorgan Investment Funds - Global Income A (div) SGD-H","LU2430703251.USD":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4\" (USD) INC","LU2360106780.USD":"BGF WORLD TECHNOLOGY \"A4\" (USD) INC","LU0320765489.SGD":"FTIF - Franklin Mutual US Value A Acc SGD","LU1803068979.SGD":"FTIF - Franklin Technology A (acc) SGD-H1","LU1035775433.USD":"AB SICAV I - AMERICAN GROWTH PORTFOLIO \"AD\" (USD) INC","BK4585":"ETF&股票定投概念","LU0417517546.SGD":"Allianz US Equity Cl AT Acc SGD","LU0265550946.USD":"BGF SYSTEMATIC GLOBAL ENHANCED EQUITY YIELD \"A5\" (USD) INC","LU2360032135.SGD":"ALLSPRING GLOBAL EQUITY ENHANCED INCOME \"A\" (SGDHDG) INC","IE00B3SWFQ91.USD":"PIMCO BALANCED INCOME AND GROWTH \"E\" (USD) INC","LU1127390331.HKD":"AB SICAV I - ALL MARKET INCOME PORTFOLIO \"A\" (HKD) ACC","LU2361044949.HKD":"WELLINGTON US QUALITY GROWTH \"A\" (HKD) ACC","BK4587":"ChatGPT概念","LU0061474705.USD":"THREADNEEDLE (LUX) GLOBAL DYNAMIC REAL RETURN \"AU\" (USD) ACC","LU2361044865.SGD":"WELLINGTON US QUALITY GROWTH \"A\" (SGDHDG) ACC","LU2087621335.USD":"ALLSPRING GLOBAL FACTOR ENHANCED EQUITY \"A\" (USD) ACC","LU1974910355.USD":"Allianz Thematica Cl AMg DIS USD","BK4588":"碎股","LU2361045086.USD":"WELLINGTON US QUALITY GROWTH \"A\" (USD) ACC","LU2417539215.USD":"ALLIANZ GLOBAL INCOME \"AMF\" (USD) INC","IE00B775H168.HKD":"JANUS HENDERSON BALANCED \"A5M\" (HKD) INC","LU2125154935.USD":"ALLSPRING (LUX) WF GLOBAL EQUITY ENHANCED INCOME \"I\" (USD) INC","IE0004445239.USD":"JANUS HENDERSON US FORTY \"A2\" (USD) ACC","IE00BFSS8Q28.SGD":"Janus Henderson Balanced A Inc SGD-H","LU1670628061.USD":"M&G (LUX) NORTH AMERICAN DIVIDEND \"A\" (USD) INC","LU1670710588.SGD":"M&G (LUX) GLOBAL DIVIDEND \"A\" (SGD) ACC","LU1670710661.SGD":"M&G (LUX) GLOBAL DIVIDEND \"A\" (SGD) INC","LU0979878070.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"A\" (USD) ACC"},"translate_title":"Meta open source GCM toolkit: \"Take the pulse\" for AI training GPU clusters, and accurately identify hardware \"invisible killers\"","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"META":1.95},"content_text":"在人工智能模型参数量持续突破至万亿规模的背景下，支撑其训练的GPU集群正面临前所未有的稳定性挑战。这类由数千张显卡组成的超级计算系统，即便单个节点出现\"隐性故障\"——即硬件保持在线状态但计算性能显著衰减——也可能导致整个训练任务的梯度数据被污染，造成数周的算力投入付诸东流。针对这一行业痛点，meta公司近日宣布开源其自主研发的GPU集群监控工具包GCM，为高性能计算领域提供了创新的硬件管理解决方案。与传统IT架构中通过扩容解决服务器延迟的思路不同，AI训练对硬件可靠性的要求近乎苛刻。GCM的核心突破在于构建了硬件遥测数据与上层任务调度系统之间的智能映射机制。通过深度集成Slurm任务调度器，该系统能够实时追踪每个计算任务的资源消耗模式，将原本模糊的功耗波动、报错频率等指标，精准关联到具体的任务ID。这种\"任务级\"监控能力使运维团队首次获得了GPU集群的\"健康透视图\"，可在故障影响训练进程前自动隔离问题节点。在故障预防机制方面，GCM引入了双阶段检测流程：任务启动前执行严格的硬件预检，确认网络连通性和GPU可用性；任务结束后调用NVIDIA DCGM工具进行深度诊断，生成包含温度、显存错误率等30余项指标的体检报告。所有底层数据均被转换为标准化的OpenTelemetry格式，支持在Grafana等可视化平台生成动态健康看板，使原本需要专业硬件知识的运维工作变得像监控网络流量一样直观。该系统的技术亮点体现在三个维度：首先是\"僵尸节点\"识别能力，通过机器学习模型建立正常性能基线，能准确检测表面在线实则降效的GPU；其次是全链路归因分析，将硬件异常与具体训练任务关联，帮助开发者快速定位问题代码段；最后是自动化运维流程，从故障检测到节点隔离再到任务迁移形成闭环，确保95%以上的硬件故障能在影响训练前被处理。据实测数据显示，GCM可使大型AI训练任务的硬件故障率降低67%，算力利用率提升40%。目前，GCM工具包已在GitHub平台完全开源，包含监控代理、数据分析引擎和可视化面板三大模块。开发者可根据集群规模灵活部署，既支持单节点诊断也适用于跨地域的分布式训练系统。随着万亿参数模型成为行业标配，这种将硬件可靠性管理提升到系统级高度的创新方案，正在重新定义AI基础设施的运维标准。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"isVideo":false,"video":null,"symbols":[],"gpt_button":0,"need_auth":false,"need_login_tip":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.43.1","shortVersion":"4.43.1","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2614122775","isCrawlerRequest":true}