谷歌推出 Gemma 3 QAT 模型，单张 RTX 3090 即可运行

Ofweek光电信息网2025-04-22

编译/前方智能谷歌于近日宣布为其最新一代开源模型 Gemma 3 推出经过量化感知训练（QAT）优化的新版本。Gemma 3 此前以其先进性能著称，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低内存需求，使其更易于在消费级 GPU 上运行。尽管高端硬件上的性能对云部署和研究至关重要，但用户普遍希望在现有硬件上运行强大 AI 模型。这正是...

网页链接

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"isChannel":false,"data":{"share":"https://www.laohu8.com/m/news/2529441703?lang=zh_CN&edition=full","thumbnail":"","is_english":false,"pubTime":"2025-04-22 16:04","share_image_url":"https://static.laohu8.com/9a95c1376e76363c1401fee7d3717173","id":"2529441703","market":"us","top_or_hot":-1,"title":"谷歌推出 Gemma 3 QAT 模型，单张 RTX 3090 即可运行","media":"Ofweek光电信息网","content":"<div>\n<p>编译/前方智能谷歌于近日宣布为其最新一代开源模型 Gemma 3 推出经过量化感知训练（QAT）优化的新版本。Gemma 3 此前以其先进性能著称，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低内存需求，使其更易于在消费级 GPU 上运行。尽管高端硬件上的性能对云部署和研究至关重要，但用户普遍希望在现有硬件上运行强大 AI 模型。这正是...</p>\n\n<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b\">网页链接</a>\n\n</div>\n","source":"tencent","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>谷歌推出 Gemma 3 QAT 模型，单张 RTX 3090 即可运行</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n谷歌推出 Gemma 3 QAT 模型，单张 RTX 3090 即可运行\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-04-22 16:04 北京时间&nbsp;&nbsp;&nbsp;<a href=http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b><strong>Ofweek光电信息网</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>编译/前方智能谷歌于近日宣布为其最新一代开源模型 Gemma 3 推出经过量化感知训练（QAT）优化的新版本。Gemma 3 此前以其先进性能著称，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低内存需求，使其更易于在消费级 GPU 上运行。尽管高端硬件上的性能对云部署和研究至关重要，但用户普遍希望在现有硬件上运行强大 AI 模型。这正是...</p>\n\n<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"LU2750360997.AUD","symbol_name":"INVESCO GLOBAL EQUITY INCOME ADVANTAGE \"A\" (AUDHDG) INC","start_time":0,"source_url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b","article_id":"2529441703","we_media_id":null,"thumbnails":[],"rights":{"source":"tencent","url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN2025042216144694ddd1dd&s=b","rn_cache_url":null,"customStyle":"body{padding-top:10px;}#news_title{font-weight:bold;#titleStyle#;}#news_description span{font-size:12px;#descriptionStyle#;}.footer-note{#statement#}","selectors":".mod-LoadTzbdNews, body","filters":".relate-stock, .hot-list, .recom-box, .wx-sou","directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2529441703","pubTimestamp":1745309040,"columns":[],"sourceInfo":{"source_id":"tencent","name":"腾讯"},"weMediaInfo":null,"summary":"编译/前方智能谷歌于近日宣布为其最新一代开源模型 Gemma 3 推出经过量化感知训练优化的新版本。Gemma 3 此前以其先进性能著称，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低内存需求，使其更易于在消费级 GPU 上运行。例如，Gemma 3 27B 模型所需的 VRAM 从 BF16 精度下的 54 GB 骤降至仅 14.1 GB。现在，经过 int4 优化的 Gemma 3 27B 模型可以轻松运行在单张桌面级 NVIDIA RTX 3090或类似显卡上。Gemma 3 12B 模型可以在笔记本电脑的 NVIDIA RTX 4060 Laptop GPU等显卡上高效运行。","collect":0,"end_time":0,"defaultTopTitle":"qq.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{"LU2750360997.AUD":"INVESCO GLOBAL EQUITY INCOME ADVANTAGE \"A\" (AUDHDG) INC","SG9999015945.SGD":"LionGlobal Disruptive Innovation Fund A SGD","LU0048573561.USD":"FIDELITY AMERICA \"A\" (USD) INC","RTX":"雷神技术公司","SG9999001077.SGD":"United International Growth Fund SGD","BK4588":"碎股","IE00BZ1G4Q59.USD":"LEGG MASON CLEARBRIDGE US EQUITY SUSTAINABILITY LEADER \"A\"(USD) INC (A)","IE0004445015.USD":"JANUS HENDERSON BALANCED \"A2\" (USD) ACC","LU0444973449.USD":"CT (LUX) I GLOBAL TECHNOLOGY \"DU\" (USD) ACC","LU1551013425.SGD":"Allianz Income and Growth Cl AMg2 DIS H2-SGD","NVDA":"英伟达","LU1935043536.SGD":"MANULIFE GF GLOBAL MULTI-ASSET DIVERSIFIED INCOME \"AA\" (SGDHDG) INC A","LU2077746001.SGD":"Blackrock ESG Multi-Asset A2 SGD-H","IE0004445239.USD":"JANUS HENDERSON US FORTY \"A2\" (USD) ACC","LU0310800379.SGD":"FTIF - Templeton Global A Acc SGD","LU2362541513.USD":"WELLINGTON NEXT GENERATION GLOBAL EQUITY \"A\" (USD) ACC","LU1066053197.SGD":"HSBC GIF GLOBAL EQUITY VOLATILITY FOCUSED \"AM3\" (SGDHDG) INC","LU0965508806.USD":"AB LOW VOLATILITY EQUITY PORTFOLIO \"AD\" (USD) INC","LU0683600562.USD":"AB SELECT US EQUITY \"A\" (USD) ACC","LU1923623000.USD":"Natixis Thematics AI & Robotics Fund R/A USD","LU0433182093.SGD":"First Eagle Amundi International AS-C SGD","LU2065170008.USD":"M&G (LUX) GLOBAL MAXIMA \"A\" (USD) INC","LU2237443978.SGD":"Aberdeen Standard SICAV I - Global Dynamic Dividend A Acc SGD-H","LU2491049909.HKD":"WELLINGTON SUSTAINABLE OUTCOMES \"A\" (HKD) ACC","USJW.SI":"ALPHAB 3xLongSG261006","GOOG":"谷歌","LU0494093205.USD":"贝莱德ESG灵活多元资产A2 USD-H","QAT":"iShares MSCI Qatar ETF","LU0787776722.HKD":"AB SELECT US EQUITY PORTFOLIO \"A\" (HKD) ACC","LU0316494557.USD":"FRANKLIN GLOBAL FUNDAMENTAL STRATEGIES \"A\" ACC","GOOGL":"谷歌A","LU1699723380.USD":"ALLSPRING GLOBAL LONG/SHORT EQUITY \"AP\" (USD) ACC","LU0170899867.USD":"EASTSPRING INVESTMENTS WORLD VALUE EQUITY  \"A\" (USD) ACC","BK4527":"明星科技股","LU1670627923.USD":"M&G (LUX) NORTH AMERICAN DIVIDEND \"A\" (USD) ACC","LU0889565833.HKD":"FRANKLIN TECHNOLOGY \"A\" (HKD) ACC","BK4534":"瑞士信贷持仓","LU0957791311.USD":"THREADNEEDLE (LUX) GLOBAL FOCUS \"ZU\" (USD) ACC","LU0648000940.SGD":"Natixis Harris Associates Global Equity RA SGD","LU0130102774.USD":"Natixis Harris Associates US Equity RA USD","LU0742534661.SGD":"Fidelity America A-SGD (hedged)","LU0097036916.USD":"贝莱德美国增长A2 USD","IE00BQXX3D17.EUR":"GUINNESS GLOBAL INNOVATORS \"C\" (EUR) ACC","LU2471134523.USD":"INVESCO GLOBAL EQUITY INCOME ADVANTAGE \"A\" (USD) ACC","LU2168564065.EUR":"AZ ALLOCATION - TREND \"AAZ\" (EUR) ACC","LU0276348264.USD":"THREADNEEDLE (LUX) GLOBAL DYNAMIC REAL RETURN\"AUP\" (USD) INC","BK4612":"AI芯片","LU2092937148.SGD":"Blackrock ESG Multi-Asset A8 SGD-H","LU0109392836.USD":"富兰克林科技股A","IE00BN29S564.USD":"JANUS HENDERSON BALANCED \"A3\" (USD) INC","LU2125154935.USD":"ALLSPRING (LUX) WF GLOBAL EQUITY ENHANCED INCOME \"I\" (USD) INC"},"translate_title":"Google Unveils Gemma 3 QAT Model, Running With Single RTX 3090","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"USJW.SI":0.6,"GOOGL":1,"NVDA":0.9,"GOOG":1,"QAT":1,"RTX":1},"content_text":"编译/前方智能谷歌于近日宣布为其最新一代开源模型 Gemma 3 推出经过量化感知训练（QAT）优化的新版本。Gemma 3 此前以其先进性能著称，但在原生 BF16 精度下通常需要 NVIDIA H100 等高端 GPU。新的 QAT 模型旨在大幅降低内存需求，使其更易于在消费级 GPU 上运行。尽管高端硬件上的性能对云部署和研究至关重要，但用户普遍希望在现有硬件上运行强大 AI 模型。这正是量化技术发挥作用的地方。量化通过降低模型参数的数值精度（例如从 16 位的 BF16 降至 4 位的 int4），显著减小模型体积和内存占用。为了在减小模型体积的同时保持高质量，新模型采用了量化感知训练（QAT）。QAT 在模型训练过程中融入量化过程，通过模拟低精度操作，使得训练后的模型能够更好地进行量化，从而在缩小模型尺寸、提升速度的同时，最大限度地保持准确性。例如，将模型量化到 Q4_0 格式时，QAT 将困惑度下降幅度降低了 54%。图源：谷歌采用 int4 量化带来的显存（VRAM）节省效果显著。例如，Gemma 3 27B 模型所需的 VRAM 从 BF16 精度下的 54 GB 骤降至仅 14.1 GB。Gemma 3 12B 模型从 24 GB 降至 6.6 GB；Gemma 3 4B 模型从 8 GB 降至 2.6 GB；Gemma 3 1B 模型从 2 GB 降至 0.5 GB。这些显著的内存降低解锁了在广泛使用的消费级硬件上运行大型强大模型的可能性。现在，经过 int4 优化的 Gemma 3 27B 模型可以轻松运行在单张桌面级 NVIDIA RTX 3090（拥有 24 GB VRAM）或类似显卡上。Gemma 3 12B 模型可以在笔记本电脑的 NVIDIA RTX 4060 Laptop GPU（8 GB VRAM）等显卡上高效运行。更小的 4B 和 1B 模型则进一步降低了门槛，适用于资源更有限的设备，包括手机。为了方便用户使用，官方的 int4 和 Q4_0 未量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。此外，这些模型也得到了开发者工具的集成支持，包括 Ollama、LM Studio、MLX（支持 Apple Silicon）、Gemma.cpp（高效 CPU 推理）以及 llama.cpp（支持 GGUF 格式）。社区中也有基于后训练量化（PTQ）的多种模型变体可供探索。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"","news_rank":0,"symbols":[],"gpt_button":0,"need_auth":false,"code":"91000000","status":"200"},"commentList":[],"isCommentEnd":true,"newsSizeData":{"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"likeStatus":false,"favoriteStatus":false},"APP":{"userAgent":"Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)","isDev":false,"isTTM":false,"tenantId":"TBCN","deviceId":"web-server-community-laohu8-v3","version":"4.36.2","shortVersion":"4.36.2","platform":"web","vendor":"web","appName":"laohu8","isIOS":false,"isAndroid":false,"isTiger":false,"isTHS":false,"isWeiXin":false,"isWeiXinMini":false,"isWeiBo":false,"isQQ":false,"isBaiduSwan":false,"isBaiduBox":false,"isDingTalk":false,"isToutiao":false,"isOnePlus":false,"isHuaWei":false,"isXiaomi":false,"isXiaomiWebView":false,"isOppo":false,"isVivo":false,"isSamsung":false,"isMobile":false},"href":"/m/news/2529441703","isCrawlerRequest":true}