稳稳盈
2025-03-21
我特么怎么拉黑这种垃圾作者?
英伟达新GPU再王炸,也得靠蹭DeepSeek卖卡
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
啊哈是不是啊哈
2025-03-21
啊哈是不是啊哈
我也想知道
什么也没有了~
APP内打开
发表看法
1
2
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":415963007205920,"tweetId":"415963007205920","gmtCreate":1742562029548,"gmtModify":1742562527463,"author":{"id":3471297774606643,"idStr":"3471297774606643","authorId":3471297774606643,"authorIdStr":"3471297774606643","name":"稳稳盈","avatar":"https://static.tigerbbs.com/26a42c57ba118798d1a8fc138a7ca030","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":2,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":4,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>我特么怎么拉黑这种垃圾作者?</p></body></html>","htmlText":"<html><head></head><body><p>我特么怎么拉黑这种垃圾作者?</p></body></html>","text":"我特么怎么拉黑这种垃圾作者?","highlighted":1,"essential":1,"paper":1,"likeSize":2,"commentSize":1,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/415963007205920","repostId":2521644449,"repostType":2,"repost":{"id":"2521644449","kind":"news","pubTimestamp":1742526702,"share":"https://www.laohu8.com/m/news/2521644449?lang=zh_CN&edition=full","pubTime":"2025-03-21 11:11","market":"us","language":"zh","title":"英伟达新GPU再王炸,也得靠蹭DeepSeek卖卡","url":"https://stock-news.laohu8.com/highlight/detail?id=2521644449","media":"蓝鲸财经","summary":"一身皮衣黄仁勋,GTC 2025上意气风发。虽然最近英伟达的股票跌得比较狠,甚至来到了10年来的最低点,但这不影响老黄,对最新的GPU们信心满满。时间回拨到2月初,DeepSeek的发布在AI领域掀起巨浪。一时间,宣称DeepSeek能让英伟达走上末路的声音此起彼伏,特别是海外的社媒平台发酵最快、传播最凶。不过,也有另一种声音称,从长期来看DeepSeek的成功反而利好英伟达。终于,黄仁勋首次在公开场合,正面回应了DeepSeek诞生以来对公司造成的冲击。","content":"<html><body><blockquote>\n<p>作者|蓝字计划 Hayward</p>\n</blockquote>\n<p>一身皮衣黄仁勋,GTC 2025上意气风发。</p>\n<p>虽然最近<a href=\"https://laohu8.com/S/NVDA\">英伟达</a>的股票跌得比较狠,甚至来到了10年来的最低点,但这不影响老黄,对最新的GPU们信心满满。</p>\n<p>时间回拨到2月初,DeepSeek的发布在AI领域掀起巨浪。一个中国团队的产品,仅用了少量的低端GPU(以A100为主)蒸馏现有超大模型就实现了高端GPU(以H100为代表)才有的性能。</p>\n<p>高端GPU并非刚需,谁还成吨地采购你老黄的Hopper、Blackwell 核弹?过去在AI行业被奉为金科玉律的“Scaling Law”(规模定律),也就是“模型参数量、数据集、训练成本越多越好”的观念也被严重冲击。</p>\n<p>这几年<a href=\"https://laohu8.com/S/GOOG\">谷歌</a>、Meta、<a href=\"https://laohu8.com/S/MSFT\">微软</a>等互联网大厂成吨地采购H100芯片以维持规模,正是想以算力分胜负、定生死。现在根本不需要如此恐怖的规模,也能让大模型拥有媲美 OpenAI o1的性能。</p>\n<p>一时间,宣称DeepSeek能让英伟达走上末路的声音此起彼伏,特别是海外的社媒平台发酵最快、传播最凶。有X网友更坦言“英伟达的一切都将开始瓦解”,这段时间里英伟达的股票一天下跌13%、17%都成了常态。</p>\n<p>不过,也有另一种声音称,从长期来看DeepSeek的成功反而利好英伟达。</p>\n<p>DeepSeek揭示了可以通过“蒸馏现有超大模型”的方法训练性能出色的大模型,但只是不需要用到H100芯片这等性能怪兽而已,并非完全不依赖计算卡。A100计算卡,也是英伟达家的产品。</p>\n<p>玩家的门槛降低了,入场的玩家自然会越来越多,从市场总量来说,对算力的需求还是会上升的。英伟达又是全世界最大的卡贩子,总会卖出更多的计算卡。</p>\n<p>再说了要蒸馏现有的超大模型,也得先有性能出色的超大模型存在才行,到底还是需要H100这样的计算卡集群来训练超大模型,这似乎是个“先有鸡还是有蛋”的问题。</p>\n<p>只能说两种声音都有道理,不过大家最想知道的还是老黄本人的声音。</p>\n<p>这次GTC 2025,我们终于等到老黄的亲自回应。</p>\n<p>还是那个GPU霸主</p>\n<p>按照惯例,我们先来回顾一下这场光门票就要价1万美元的“科技盛宴”。</p>\n<p>简单来说,英伟达主要发布了四款芯片架构、两款AI电脑、一款AI训练底层软件和展示了具身机器人相关的进展,其他内容就不赘述了。</p>\n<p>· 4款AI芯片架构,分别是将在2025下半年发布的Blackwell Ultra、2026下半年发布的Vera Rubin、2027下半年发布的Vera Rubin Ultra,和2028年的Feynman。</p>\n<p>全新的超级芯片产品方面,基于Blackwell Ultra架构的GB300 NVL72芯片是上代最强芯片GB200的继任者,推理是GB200 NVL72的1.5倍,提升幅度不算大,甚至在大会上GB300的直接对比对象还是2年前的H100。</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171229_exlnlcqyggpet.jpeg\" width=\"1080\"/></p>\n<p>从市场的反应来看大部分人对GB300不太买账,它没有上一代GB200的那种“横空出世”的惊喜感,要说最大的升级点,可能是HBMe内存提升至288GB,就是有点“<a href=\"https://laohu8.com/S/AAPL\">苹果</a>今年发布的新机是2TB版本的iPhone 16 Pro Max”的味道了。</p>\n<p>重头戏是英伟达未来的芯片架构规划,下代超级芯片Rubin NVL144,比GB300 NVL72 强了3.3倍;下下代的Rubin Ultra NVL576性能是GB300 NVL72的14倍,从画饼给出的性能来看,未来大概率还是会由英伟达掌握GPU算力王座。</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171229_jnjzapzjfxufu.png\" width=\"1080\"/></p>\n<p>· 两款全新的AI电脑,分别是搭载了GB10 Grace Blackwell超级芯片的DGX Spark,每秒可提供高达 1000 万亿次 AI 运算;搭载了GB300 Grace Blackwell Ultra的DGX Station,可以提供每秒可提供高达2000 万亿次 AI 运算。目前DGX Spark已经开始预售,要价3000美元。</p>\n<p>· 开源软件NVIDIA Dyamo,可以简单理解为一款AI工厂(数据中心)的操作系统,英伟达说在NVIDIA Blackwell上使用Dynamo优化推理,能让DeepSeek-R1的吞吐量提升30倍。</p>\n<p>· 具身机器人的技术储备,包括机器人通用基础模型Isaac GR00T N1、一款配备了GR00T N1模型的机器人:Blue,和Google Mind、<a href=\"https://laohu8.com/S/DIS\">迪士尼</a>合作的最新成果。</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171229_ngthkzcmwkrvf.png\" width=\"1080\"/></p>\n<p>从发布的产品来看,英伟达还是那个GPU领域的霸主,甚至领导地位已经开始向AI拓展。它们不仅将产品技术路线图更新至一年一更,未来三年的产品堪称“超级大饼”,围绕AI相关的软件建设也在飞速推进,NVIDIA Dyamo很可能会是未来数据中心的标配。</p>\n<p>对于DeepSeek的冲击,英伟达似乎也有了解决的办法。</p>\n<p>进入“token时代”</p>\n<p>终于,黄仁勋首次在公开场合,正面回应了DeepSeek诞生以来对公司造成的冲击。</p>\n<p>首先他把DeepSeek从头到脚吹了一遍,说DeepSeek R1模型是“卓越的创新”和“世界级的开源推理模型”,而且他淡定地表示,不理解为什么大家会把DeepSeek当成英伟达的末日。</p>\n<p>至于因DeepSeek而起的关于Scaling Law撞墙的讨论,老黄在会上给出了自己的理解。</p>\n<p>首先,他在大会上对Scaling Law进行了一次迭代更新:</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171230_uutskutcccuzb.jpeg\" width=\"1386\"/></p>\n<p>现在他将Scaling Law细化为PRE-TRAINING SCALING、POST-TRAINING SCALING、TEST-TIME SCALING三个部分。老黄的意思是,随着AI进入到不同阶段,对Scaling的需求是不断提高的。</p>\n<p>这里要提一下,老黄认为AI的发展分为四个阶段:感知人工智能(Perception AI)、生成式人工智能(Generative AI)、代理人工智能(Agentic AI)和未来的物理 AI(Physical AI)。而现在我们正处于代理人工智能阶段。</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171230_pcnlehoggsdoh.jpeg\" width=\"1186\"/></p>\n<p>现阶段由于推理模型、AI代理的爆发,实际上更加需要Scaling,更加需要算力。</p>\n<p>其背后的关键是token。</p>\n<p>以推理模型为例子,模型进行推理时,token的消耗猛涨。用老黄的话,我们不仅需要让token的吞吐量提升十倍,还需要过去10倍的算力来提升token的输出速度,最终,需要的算力是之前的100倍。</p>\n<p>从技术上来说,这不无道理。相比传统的生成式模型,比如ChatGPT,我们观察到它没有列举推理步骤。输入问题 → 提供答案,没中间商差价,答案所呈现的就是最终消耗的token数。</p>\n<p>而拥有思维链的推理式模型,比如大家熟知的DeepSeek R1,会有一连串的推理过程,有些时候可能推理过程的字数比答案还要多。</p>\n<p>R1模型能够实现推理,是因为会将输出的token返回上级重新思考、推理,正如比喻大师老黄所说的“每个token都会自我怀疑”,在不断的怀疑-论证中,形成了推理的过程。但这也会更多地消耗算力和token,推理模型要比传统生成式模型多消耗的token不是2倍,而是20倍。</p>\n<p>所以,我们用推理模型时,一大串的思考、推理过程要在前台展示出来,不仅因为用户可以从大模型的推理过程介入修正答案,还因为它们不是白送的,不是免费的,而是在消耗一个个token,都是真金白银,花了钱的地方肯定得让你看到。</p>\n<p>而且市面上的推理模型越来越多,更多的传统模型也陆续开始加入推理过程,比如谷歌的Gemini,最终token的消耗会呈指数级增长。</p>\n<p>这就是老黄坚信Scaling Law没有失效的底气。在会上,老黄用传统模型Llama 3.3 70B与DeepSeek R1 671B进行了对比,统一回答一个复杂问题。最终前者消耗了400多个token但结果不可用,后者的结果堪称完美,但足足消耗了8559个token。</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171230_idejzifortjay.jpeg\" width=\"1386\"/></p>\n<p>或许从蒸馏大模型的点子中节约的算力,又会消耗到推理的过程中,说不准这就是AI算力中的能量守恒呢。</p>\n<p>DeepSeek让英伟达GPU卖得更好</p>\n<p>除了黄仁勋的激情论证,一个事实是,在这个高token消耗时代,英伟达的GPU的确卖得更猛了。</p>\n<p>彭博社报道,OpenAI 预计在“星际之门”首期计划中,建立一个可以容纳40万个英伟达的 AI 芯片的数据中心综合体。全部装满的话,这会是世界最大的AI算力集群之一。</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171230_zhsjakifylebn.jpeg\" width=\"1080\"/></p>\n<p>还有对算力推崇至极的马斯克,旗下的 xAI 已与<a href=\"https://laohu8.com/S/DELL\">戴尔</a>达成 50 亿美元协议,用于在孟菲斯建设超级计算机的 AI 服务器;Meta也宣布计划要拥有相当于 600,000 块英伟达 H100 芯片的算力。</p>\n<p>还有国内的阿里、小米、<a href=\"https://laohu8.com/S/00700\">腾讯</a>等公司,也将部署海量算力作为主要目标。这背后的显卡供应商,毫无疑问都主要来自英伟达。推理模型铺开后大公司们对计算卡、算力的热情丝毫不减,看来至少大公司们仍相信未来是算力的时代。</p>\n<p>在个人本地部署领域,DeepSeek R1也没有真正地减轻个人用户的算力负担。</p>\n<p>2月中,全网掀起了一阵本地部署DeepSeek R1蒸馏模型的热潮,但从个人的经验来看,想要得到较好的模型性能,对电脑配置,也就是算力的要求一点都不低。</p>\n<p>以RTX 4080 16GB显卡为例,拥有9728个CUDA核心,16GB GDDR6X的显存带宽为736 GB/s,在显卡中已经算高端。</p>\n<p>但用它在本地部署14B的DeepSeek R1蒸馏模型时,大部分的推理速度只有20-30 tokens/s,需要分析深度问题往往需要等待超过10分钟。</p>\n<p>如果更进一步用它来部署32B的蒸馏模型,推理速度会进一步下降到5-15 tokens/s,生成同样的回答,就需要等待超过30分钟。</p>\n<p>这样的效率显然是不行的。如果想要提高推理速度,有两个办法:</p>\n<p>选择更小参数的蒸馏模型部署,但推理的精度、答案的可靠性会明显下降;</p>\n<p>选择更高配置的硬件,比如RTX 5080/5090,用5090部署32B的蒸馏模型,推理速度也能达到50-60 tokens/s,效率明显提升,但又让老黄卖卡的计划通了。</p>\n<p>也许大多数人的算力条件,本地部署的大模型还不如直接打开腾讯元宝高效。</p>\n<p>因此,从DeepSeek R1引申出来的“蒸馏模型节省训练算力”已经被“推理模型消耗算力”抵消,这给了英伟达全新的机遇,可以说DeepSeek的出现为英伟达关上了一扇门,又打开了一扇窗。</p>\n<p>最终,我们不得不承认长远来看算力的需求还会不断增加,还是利好英伟达。虽说今年Blackwell Ultra挤牙膏,但后面几年的芯片架构都会有明显的算力提升。当各大厂的算力吃紧时,老黄的核弹们,又有大展拳脚的机会了。</p>\n<p>贩卖token焦虑?</p>\n<p>纵观GTC 2025,只要是涉及AI、GPU、算力的部分,老黄都离不开token,甚至有好事的媒体专门统计了他在会上提到“token”的次数,还怪幽默的。</p>\n<p>在新Scaling Law时代,token仿佛成了英伟达的救命稻草。虽然从逻辑上看老黄的观点说得通,但如此频繁地重复一种逻辑,就像我们在文章中连续写100次“token”,多少会有人觉得,英伟达有点歇斯底里。</p>\n<p>自农历新年以来,英伟达的市值已经跌去了将近30%,这次发布会的黄仁勋不再像一个技术大拿,不像是那个“全世界最聪明的科学家”、“全球最牛公司的CEO”,而像一个絮絮叨叨的金牌销售,通过贩卖token焦虑的方式,让大家坚信英伟达仍掌握着未来。</p>\n<p>不过投资者的信心不来自推销和布道,而来自产品。事实就是今年下半年面世的GB300确实没有太多亮点,画的大饼又比较遥远。反映到股价上,发布会结束后英伟达的股价依然下跌了3.4%。</p>\n<p>其实更令我哭笑不得的是价值3000美元的DGX Spark,根据官网披露的信息这款产品的128GB内存,带宽只有273GB/s。</p>\n<p><img border=\"0\" src=\"https://img.lanjinger.com/news/20250320/171230_wkpbxiolpqmak.jpeg\" width=\"1384\"/></p>\n<p>尽管老黄将它定义为“可用于本地部署”的AI电脑,但这性能真不敢恭维。不说满血版671B的DeepSeek R1,跑大部分32B的模型可能也只能实现2-5 tokens/s的输出效率。用它来跑传统的模型应该还不赖,但推理模型估计是很困难了。</p>\n<p>或许它存在的意义,停留在“让大家买更强的DGX Station”上罢了。只是如果你一直在贩卖token焦虑,最好能拿出更多能解决token焦虑的产品来。</p>\n<p>英伟达现在缺乏的不是技术和产品,在GPU领域一骑绝尘,第二名都看不到车尾灯;真正缺乏的,是对消费者的诚意。</p>\n<p><em>参考资料:</em></p>\n<p><em>APPSO 《刚刚,黄仁勋甩出三代核弹AI芯片!个人超算每秒运算1000万亿次,DeepSeek成最大赢家》</em></p>\n<p><em>第一财经 《凌晨,黄仁勋重大宣布!》</em></p>\n<p><em>图片来源:GTC March 2025 Keynote with NVIDIA CEO Jensen Huang</em></p>\n</body></html>","source":"lanjinger_stock","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>英伟达新GPU再王炸,也得靠蹭DeepSeek卖卡</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n英伟达新GPU再王炸,也得靠蹭DeepSeek卖卡\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-03-21 11:11 北京时间 <a href=https://www.lanjinger.com/d/253553><strong>蓝鲸财经</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者|蓝字计划 Hayward\n\n一身皮衣黄仁勋,GTC 2025上意气风发。\n虽然最近英伟达的股票跌得比较狠,甚至来到了10年来的最低点,但这不影响老黄,对最新的GPU们信心满满。\n时间回拨到2月初,DeepSeek的发布在AI领域掀起巨浪。一个中国团队的产品,仅用了少量的低端GPU(以A100为主)蒸馏现有超大模型就实现了高端GPU(以H100为代表)才有的性能。\n高端GPU并非刚需,谁还成吨...</p>\n\n<a href=\"https://www.lanjinger.com/d/253553\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"","relate_stocks":{"NVDA":"英伟达"},"source_url":"https://www.lanjinger.com/d/253553","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2521644449","content_text":"作者|蓝字计划 Hayward\n\n一身皮衣黄仁勋,GTC 2025上意气风发。\n虽然最近英伟达的股票跌得比较狠,甚至来到了10年来的最低点,但这不影响老黄,对最新的GPU们信心满满。\n时间回拨到2月初,DeepSeek的发布在AI领域掀起巨浪。一个中国团队的产品,仅用了少量的低端GPU(以A100为主)蒸馏现有超大模型就实现了高端GPU(以H100为代表)才有的性能。\n高端GPU并非刚需,谁还成吨地采购你老黄的Hopper、Blackwell 核弹?过去在AI行业被奉为金科玉律的“Scaling Law”(规模定律),也就是“模型参数量、数据集、训练成本越多越好”的观念也被严重冲击。\n这几年谷歌、Meta、微软等互联网大厂成吨地采购H100芯片以维持规模,正是想以算力分胜负、定生死。现在根本不需要如此恐怖的规模,也能让大模型拥有媲美 OpenAI o1的性能。\n一时间,宣称DeepSeek能让英伟达走上末路的声音此起彼伏,特别是海外的社媒平台发酵最快、传播最凶。有X网友更坦言“英伟达的一切都将开始瓦解”,这段时间里英伟达的股票一天下跌13%、17%都成了常态。\n不过,也有另一种声音称,从长期来看DeepSeek的成功反而利好英伟达。\nDeepSeek揭示了可以通过“蒸馏现有超大模型”的方法训练性能出色的大模型,但只是不需要用到H100芯片这等性能怪兽而已,并非完全不依赖计算卡。A100计算卡,也是英伟达家的产品。\n玩家的门槛降低了,入场的玩家自然会越来越多,从市场总量来说,对算力的需求还是会上升的。英伟达又是全世界最大的卡贩子,总会卖出更多的计算卡。\n再说了要蒸馏现有的超大模型,也得先有性能出色的超大模型存在才行,到底还是需要H100这样的计算卡集群来训练超大模型,这似乎是个“先有鸡还是有蛋”的问题。\n只能说两种声音都有道理,不过大家最想知道的还是老黄本人的声音。\n这次GTC 2025,我们终于等到老黄的亲自回应。\n还是那个GPU霸主\n按照惯例,我们先来回顾一下这场光门票就要价1万美元的“科技盛宴”。\n简单来说,英伟达主要发布了四款芯片架构、两款AI电脑、一款AI训练底层软件和展示了具身机器人相关的进展,其他内容就不赘述了。\n· 4款AI芯片架构,分别是将在2025下半年发布的Blackwell Ultra、2026下半年发布的Vera Rubin、2027下半年发布的Vera Rubin Ultra,和2028年的Feynman。\n全新的超级芯片产品方面,基于Blackwell Ultra架构的GB300 NVL72芯片是上代最强芯片GB200的继任者,推理是GB200 NVL72的1.5倍,提升幅度不算大,甚至在大会上GB300的直接对比对象还是2年前的H100。\n\n从市场的反应来看大部分人对GB300不太买账,它没有上一代GB200的那种“横空出世”的惊喜感,要说最大的升级点,可能是HBMe内存提升至288GB,就是有点“苹果今年发布的新机是2TB版本的iPhone 16 Pro Max”的味道了。\n重头戏是英伟达未来的芯片架构规划,下代超级芯片Rubin NVL144,比GB300 NVL72 强了3.3倍;下下代的Rubin Ultra NVL576性能是GB300 NVL72的14倍,从画饼给出的性能来看,未来大概率还是会由英伟达掌握GPU算力王座。\n\n· 两款全新的AI电脑,分别是搭载了GB10 Grace Blackwell超级芯片的DGX Spark,每秒可提供高达 1000 万亿次 AI 运算;搭载了GB300 Grace Blackwell Ultra的DGX Station,可以提供每秒可提供高达2000 万亿次 AI 运算。目前DGX Spark已经开始预售,要价3000美元。\n· 开源软件NVIDIA Dyamo,可以简单理解为一款AI工厂(数据中心)的操作系统,英伟达说在NVIDIA Blackwell上使用Dynamo优化推理,能让DeepSeek-R1的吞吐量提升30倍。\n· 具身机器人的技术储备,包括机器人通用基础模型Isaac GR00T N1、一款配备了GR00T N1模型的机器人:Blue,和Google Mind、迪士尼合作的最新成果。\n\n从发布的产品来看,英伟达还是那个GPU领域的霸主,甚至领导地位已经开始向AI拓展。它们不仅将产品技术路线图更新至一年一更,未来三年的产品堪称“超级大饼”,围绕AI相关的软件建设也在飞速推进,NVIDIA Dyamo很可能会是未来数据中心的标配。\n对于DeepSeek的冲击,英伟达似乎也有了解决的办法。\n进入“token时代”\n终于,黄仁勋首次在公开场合,正面回应了DeepSeek诞生以来对公司造成的冲击。\n首先他把DeepSeek从头到脚吹了一遍,说DeepSeek R1模型是“卓越的创新”和“世界级的开源推理模型”,而且他淡定地表示,不理解为什么大家会把DeepSeek当成英伟达的末日。\n至于因DeepSeek而起的关于Scaling Law撞墙的讨论,老黄在会上给出了自己的理解。\n首先,他在大会上对Scaling Law进行了一次迭代更新:\n\n现在他将Scaling Law细化为PRE-TRAINING SCALING、POST-TRAINING SCALING、TEST-TIME SCALING三个部分。老黄的意思是,随着AI进入到不同阶段,对Scaling的需求是不断提高的。\n这里要提一下,老黄认为AI的发展分为四个阶段:感知人工智能(Perception AI)、生成式人工智能(Generative AI)、代理人工智能(Agentic AI)和未来的物理 AI(Physical AI)。而现在我们正处于代理人工智能阶段。\n\n现阶段由于推理模型、AI代理的爆发,实际上更加需要Scaling,更加需要算力。\n其背后的关键是token。\n以推理模型为例子,模型进行推理时,token的消耗猛涨。用老黄的话,我们不仅需要让token的吞吐量提升十倍,还需要过去10倍的算力来提升token的输出速度,最终,需要的算力是之前的100倍。\n从技术上来说,这不无道理。相比传统的生成式模型,比如ChatGPT,我们观察到它没有列举推理步骤。输入问题 → 提供答案,没中间商差价,答案所呈现的就是最终消耗的token数。\n而拥有思维链的推理式模型,比如大家熟知的DeepSeek R1,会有一连串的推理过程,有些时候可能推理过程的字数比答案还要多。\nR1模型能够实现推理,是因为会将输出的token返回上级重新思考、推理,正如比喻大师老黄所说的“每个token都会自我怀疑”,在不断的怀疑-论证中,形成了推理的过程。但这也会更多地消耗算力和token,推理模型要比传统生成式模型多消耗的token不是2倍,而是20倍。\n所以,我们用推理模型时,一大串的思考、推理过程要在前台展示出来,不仅因为用户可以从大模型的推理过程介入修正答案,还因为它们不是白送的,不是免费的,而是在消耗一个个token,都是真金白银,花了钱的地方肯定得让你看到。\n而且市面上的推理模型越来越多,更多的传统模型也陆续开始加入推理过程,比如谷歌的Gemini,最终token的消耗会呈指数级增长。\n这就是老黄坚信Scaling Law没有失效的底气。在会上,老黄用传统模型Llama 3.3 70B与DeepSeek R1 671B进行了对比,统一回答一个复杂问题。最终前者消耗了400多个token但结果不可用,后者的结果堪称完美,但足足消耗了8559个token。\n\n或许从蒸馏大模型的点子中节约的算力,又会消耗到推理的过程中,说不准这就是AI算力中的能量守恒呢。\nDeepSeek让英伟达GPU卖得更好\n除了黄仁勋的激情论证,一个事实是,在这个高token消耗时代,英伟达的GPU的确卖得更猛了。\n彭博社报道,OpenAI 预计在“星际之门”首期计划中,建立一个可以容纳40万个英伟达的 AI 芯片的数据中心综合体。全部装满的话,这会是世界最大的AI算力集群之一。\n\n还有对算力推崇至极的马斯克,旗下的 xAI 已与戴尔达成 50 亿美元协议,用于在孟菲斯建设超级计算机的 AI 服务器;Meta也宣布计划要拥有相当于 600,000 块英伟达 H100 芯片的算力。\n还有国内的阿里、小米、腾讯等公司,也将部署海量算力作为主要目标。这背后的显卡供应商,毫无疑问都主要来自英伟达。推理模型铺开后大公司们对计算卡、算力的热情丝毫不减,看来至少大公司们仍相信未来是算力的时代。\n在个人本地部署领域,DeepSeek R1也没有真正地减轻个人用户的算力负担。\n2月中,全网掀起了一阵本地部署DeepSeek R1蒸馏模型的热潮,但从个人的经验来看,想要得到较好的模型性能,对电脑配置,也就是算力的要求一点都不低。\n以RTX 4080 16GB显卡为例,拥有9728个CUDA核心,16GB GDDR6X的显存带宽为736 GB/s,在显卡中已经算高端。\n但用它在本地部署14B的DeepSeek R1蒸馏模型时,大部分的推理速度只有20-30 tokens/s,需要分析深度问题往往需要等待超过10分钟。\n如果更进一步用它来部署32B的蒸馏模型,推理速度会进一步下降到5-15 tokens/s,生成同样的回答,就需要等待超过30分钟。\n这样的效率显然是不行的。如果想要提高推理速度,有两个办法:\n选择更小参数的蒸馏模型部署,但推理的精度、答案的可靠性会明显下降;\n选择更高配置的硬件,比如RTX 5080/5090,用5090部署32B的蒸馏模型,推理速度也能达到50-60 tokens/s,效率明显提升,但又让老黄卖卡的计划通了。\n也许大多数人的算力条件,本地部署的大模型还不如直接打开腾讯元宝高效。\n因此,从DeepSeek R1引申出来的“蒸馏模型节省训练算力”已经被“推理模型消耗算力”抵消,这给了英伟达全新的机遇,可以说DeepSeek的出现为英伟达关上了一扇门,又打开了一扇窗。\n最终,我们不得不承认长远来看算力的需求还会不断增加,还是利好英伟达。虽说今年Blackwell Ultra挤牙膏,但后面几年的芯片架构都会有明显的算力提升。当各大厂的算力吃紧时,老黄的核弹们,又有大展拳脚的机会了。\n贩卖token焦虑?\n纵观GTC 2025,只要是涉及AI、GPU、算力的部分,老黄都离不开token,甚至有好事的媒体专门统计了他在会上提到“token”的次数,还怪幽默的。\n在新Scaling Law时代,token仿佛成了英伟达的救命稻草。虽然从逻辑上看老黄的观点说得通,但如此频繁地重复一种逻辑,就像我们在文章中连续写100次“token”,多少会有人觉得,英伟达有点歇斯底里。\n自农历新年以来,英伟达的市值已经跌去了将近30%,这次发布会的黄仁勋不再像一个技术大拿,不像是那个“全世界最聪明的科学家”、“全球最牛公司的CEO”,而像一个絮絮叨叨的金牌销售,通过贩卖token焦虑的方式,让大家坚信英伟达仍掌握着未来。\n不过投资者的信心不来自推销和布道,而来自产品。事实就是今年下半年面世的GB300确实没有太多亮点,画的大饼又比较遥远。反映到股价上,发布会结束后英伟达的股价依然下跌了3.4%。\n其实更令我哭笑不得的是价值3000美元的DGX Spark,根据官网披露的信息这款产品的128GB内存,带宽只有273GB/s。\n\n尽管老黄将它定义为“可用于本地部署”的AI电脑,但这性能真不敢恭维。不说满血版671B的DeepSeek R1,跑大部分32B的模型可能也只能实现2-5 tokens/s的输出效率。用它来跑传统的模型应该还不赖,但推理模型估计是很困难了。\n或许它存在的意义,停留在“让大家买更强的DGX Station”上罢了。只是如果你一直在贩卖token焦虑,最好能拿出更多能解决token焦虑的产品来。\n英伟达现在缺乏的不是技术和产品,在GPU领域一骑绝尘,第二名都看不到车尾灯;真正缺乏的,是对消费者的诚意。\n参考资料:\nAPPSO 《刚刚,黄仁勋甩出三代核弹AI芯片!个人超算每秒运算1000万亿次,DeepSeek成最大赢家》\n第一财经 《凌晨,黄仁勋重大宣布!》\n图片来源:GTC March 2025 Keynote with NVIDIA CEO Jensen Huang","news_type":1,"symbols_score_info":{"NVDA":1}},"isVote":1,"tweetType":1,"viewCount":622,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":27,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[{"id":415968411938872,"commentId":"415968411938872","gmtCreate":1742562856309,"gmtModify":1742563456587,"authorId":4197529699682262,"author":{"id":4197529699682262,"idStr":"4197529699682262","authorId":4197529699682262,"name":"啊哈是不是啊哈","avatar":"https://community-static.tradeup.com/news/default-avatar.jpg","vip":1,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[]},"repliedAuthorId":0,"objectId":415963007205920,"objectIdStr":"415963007205920","type":1,"supId":0,"supIdStr":"0","prevId":0,"prevIdStr":"0","content":"我也想知道","text":"我也想知道","html":"我也想知道","likeSize":0,"commentSize":0,"subComments":[],"verified":10,"allocateAmount":0,"commentType":"valid","coins":0,"score":0,"disclaimerType":0}],"isCommentEnd":false,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/415963007205920"}
精彩评论