谷歌推出基准测试检验AI是否“靠谱”：Gemini 3 Pro准确率仅69%

IT之家2025-12-13

IT之家 12 月 13 日消息，据《商业内幕》今日报道，谷歌 DeepMind 本周发布了 FACTS 基准测试，用来检验 AI 在事实准确性方面到底靠不靠谱。这一测试从四个维度评估模型能力，包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息，以及对图像内容的理解水平。在参测模型中，谷歌的 Gemini 3 Pro 表现最好，准确率为 69%，其他主流模型则...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2591863165?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-12-13 15:58","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2591863165","market":"us","top_or_hot":-1,"title":"谷歌推出基准测试检验AI是否“靠谱”：Gemini 3 Pro准确率仅69%","media":"IT之家","content":"<div>\n<p>IT之家 12 月 13 日消息，据《商业内幕》今日报道，谷歌 DeepMind 本周发布了 FACTS 基准测试，用来检验 AI 在事实准确性方面到底靠不靠谱。这一测试从四个维度评估模型能力，包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息，以及对图像内容的理解水平。在参测模型中，谷歌的 Gemini 3 Pro 表现最好，准确率为 69%，其他主流模型则...</p>\n\n<a href=\"https://tech.ifeng.com/c/8p3KjFfXnqX\">网页链接</a>\n\n</div>\n","source":"fenghuang_stock","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>谷歌推出基准测试检验AI是否“靠谱”：Gemini 3 Pro准确率仅69%</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n谷歌推出基准测试检验AI是否“靠谱”：Gemini 3 Pro准确率仅69%\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-12-13 15:58 北京时间&nbsp;&nbsp;&nbsp;<a href=https://tech.ifeng.com/c/8p3KjFfXnqX><strong>IT之家</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>IT之家 12 月 13 日消息，据《商业内幕》今日报道，谷歌 DeepMind 本周发布了 FACTS 基准测试，用来检验 AI 在事实准确性方面到底靠不靠谱。这一测试从四个维度评估模型能力，包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息，以及对图像内容的理解水平。在参测模型中，谷歌的 Gemini 3 Pro 表现最好，准确率为 69%，其他主流模型则...</p>\n\n<a href=\"https://tech.ifeng.com/c/8p3KjFfXnqX\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"IE00BFSS8Q28.SGD","symbol_name":"Janus Henderson Balanced A Inc SGD-H","start_time":0,"source_url":"https://tech.ifeng.com/c/8p3KjFfXnqX","article_id":"2591863165","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2591863165","pubTimestamp":1765612725,"columns":[],"sourceInfo":{"source_id":"fenghuang_stock","name":"凤凰网"},"weMediaInfo":null,"summary":"IT之家 12 月 13 日消息，据《商业内幕》今日报道，谷歌 DeepMind 本周发布了 FACTS 基准测试，用来检验 AI 在事实准确性方面到底靠不靠谱。在参测模型中，谷歌的 Gemini 3 Pro 表现最好，准确率为 69%，其他主流模型则明显落后。报道指出，谷歌希望通过明确模型出错的位置和方式，加快 AI 的改进速度。但眼下可以得出的结论非常清楚，AI 确实在进步，然而仍有大约三分之一的时间会犯错。","collect":0,"end_time":0,"defaultTopTitle":"ifeng.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"IE00BFSS8Q28.SGD":"Janus Henderson Balanced A Inc SGD-H","LU0354030511.USD":"ALLSPRING  U.S. LARGE CAP GROWTH \"I\" (USD) ACC","LU2237443382.USD":"Aberdeen Standard SICAV I - Global Dynamic Dividend A MIncA USD","SG9999001077.SGD":"United International Growth Fund SGD","LU2077746001.SGD":"Blackrock ESG Multi-Asset A2 SGD-H","BK4588":"碎股","LU0345768153.USD":"NINETY ONE GSF GLOBAL STRATEGIC MANAGED \"A\" (USD) ACC","LU1894683348.USD":"AMUNDI FUNDS US EQUITY RESEARCH VALUE \"A2\" (USD) INC","LU1496350502.SGD":"FRANKLIN DIVERSIFIED DYNAMIC \"A\" (SGDHDG) ACC","LU0211331839.USD":"FRANKLIN MUTUAL GLB DISCOVERY \"A\" (USD) ACC","USJW.SI":"ALPHAB 3xLongSG261006","LU1720051108.HKD":"ALLIANZ GLOBAL ARTIFICIAL INTELLIGENCE \"AT\" (HKD) ACC","LU1917777945.USD":"安联专题基金Cl AT Acc","IE00BMPRXN33.USD":"NEUBERGER BERMAN 5G CONNECTIVITY \"A\" (USD) ACC","LU2491049909.HKD":"WELLINGTON SUSTAINABLE OUTCOMES \"A\" (HKD) ACC","GOOG":"谷歌","LU0061475181.USD":"THREADNEEDLE (LUX) AMERICAN \"AU\" (USD) ACC","LU1003077747.HKD":"BGF GLOBAL EQUITY INCOME \"A6\" (HKDHDG) INC","LU2089283258.USD":"安联环球可持续基金Cl AM Dis","LU0109391861.USD":"富兰克林美国机遇基金A Acc","IE00BFXG0V08.USD":"BNY MELLON GLOBAL LEADERS \"B\" (USD) ACC","LU1267930813.SGD":"FRANKLIN TEMPLETON SHARIAH GLOBAL EQUITY \"AS\" (SGD) ACC","IE00B19Z3581.USD":"Legg Mason ClearBridge - Value A Acc USD","LU0130103400.USD":"Natixis Harris Associates Global Equity RA USD","LU0942090050.USD":"UBS (LUX) EQUITY SICAV - US TOTAL YIELD SUSTAINABLE \"P\" (USD)  INC","LU2491050154.USD":"WELLINGTON SUSTAINABLE OUTCOMES \"A\" (USD) ACC","GOOGL":"谷歌A","LU1066051811.HKD":"HSBC GIF GLOBAL EQUITY VOLATILITY FOCUSED \"AM2\" (HKD) INC","LU0545039389.USD":"BGF GLOBAL EQUITY INCOME \"A2\" ACC","LU1303367103.USD":"摩根大通多经理另类基金 A (acc)","BK4585":"ETF&股票定投概念","LU2381873111.SGD":"BGF SYSTEMATIC GLOBAL EQUITY HIGH INCOME \"A6\" (SGDHDG) INC","LU0080751232.USD":"富达环球多元动力基金A","LU1935043023.USD":"MANULIFE GF GLOBAL MULTI-ASSET DIVERSIFIED INCOME \"AA\" (USD) INC A","IE00B19Z3B42.SGD":"Legg Mason ClearBridge - Value A Acc SGD","LU0742534661.SGD":"Fidelity America A-SGD (hedged)","IE00B5TLWC47.USD":"BNY MELLON LONG-TERM GLOBAL EQUITY \"B\" (USD) ACC","LU1629891620.HKD":"ALLIANZ INCOME AND GROWTH \"AMG2\" (H2-HKD) INC","LU2097344431.USD":"SCHRODER ISF SUSTAINABLE MULTI-ASSET INCOME \"A\" (USDHDG) INC","LU2089284900.SGD":"Allianz Global Sustainability Cl AM Dis H2-SGD","LU0861579265.USD":"联博低波幅策略股票基金A","LU1261432733.SGD":"Fidelity World A-ACC-SGD","LU0225283273.USD":"SCHRODER ISF GLOBAL EQUITY ALPHA \"A\" (USD) ACC","IE00BKDWB100.SGD":"PINEBRIDGE US LARGE CAP RESEARCH ENHANCED \"A5H\" (SGDHDG) ACC","BK4587":"ChatGPT概念","LU0289960550.SGD":"AB FCP I - GLOBAL EQUITY BLEND PORTFOLIO 'A' (SGD) ACC","LU1935042488.USD":"MANULIFE GF GLOBAL MULTI-ASSET DIVERSIFIED INCOME  \"AA\" (USD) INC","LU2458330169.SGD":"FRANKLIN SHARIAH TECHNOLOGY \"A\" (SGD) ACC","LU2430703095.HKD":"WELLINGTON MULTI-ASSET HIGH INCOME \"AM4\" (HKD) INC","LU2417539215.USD":"ALLIANZ GLOBAL INCOME \"AMF\" (USD) INC"},"translate_title":"Google launches benchmark test to test whether AI is \"reliable\": Gemini 3 Pro is only 69% accurate","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"GOOGL":1.5,"GOOG":1.5,"USJW.SI":0.6},"content_text":"IT之家 12 月 13 日消息，据《商业内幕》今日报道，谷歌 DeepMind 本周发布了 FACTS 基准测试，用来检验 AI 在事实准确性方面到底靠不靠谱。这一测试从四个维度评估模型能力，包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息，以及对图像内容的理解水平。在参测模型中，谷歌的 Gemini 3 Pro 表现最好，准确率为 69%，其他主流模型则明显落后。这一成绩对企业同样是个警钟。虽然 AI 在生成速度和语言流畅度上优势明显，但在事实可靠性方面仍然远低于人类标准，特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中。在金融、医疗和法律等高风险行业，即便细小的事实错误，也可能放大成严重后果。报道以《商业内幕》员工梅莉亚・拉塞尔为例，其本周梳理了律师事务所如何应对 AI 逐渐被当作法律事实来源的现实，结果并不乐观。她提到，有律师事务所的员工使用 ChatGPT 起草法律文件，结果文件中充斥虚假判例，最终律所直接解雇了该员工。报道指出，谷歌希望通过明确模型出错的位置和方式，加快 AI 的改进速度。但眼下可以得出的结论非常清楚，AI 确实在进步，然而仍有大约三分之一的时间会犯错。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"-1","news_tag":"dataReport","news_rank":0,"symbols":[],"gpt_button":0,"need_auth":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.36.2","shortVersion":"4.36.2","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2591863165","isCrawlerRequest":true}