GTC大会外资点评汇总
北京时间今天凌晨,黄仁勋在2026GTC大会上做了演讲,就Vera Rubin、Vera Rubin Ultra、Feynman、太空数据中心、LPU、OpenClaw、物理AI、Token、以及万亿美元订单等都做了阐述,硬件重点放在了Vera Rubin和Ultra上。整体来看,亮点不算少,也给出了较多的技术路线指引。此外,其提到了铜光共进,CPO需要更长时间等,也使得今日A股相关方向表现较差。笔者汇总部分外资投行点评如下:
伯恩斯坦点评:机架纷呈……产品细节包括关于Vera Rubin NVL72机架的更多信息(内含72个Rubin GPU、36个Vera CPU、ConnextX-9 SuperNIC和BlueField-4 DPU)、Vera Rubin CPU机架(最多搭载256个Vera CPU)、Bluefield-4 STX存储机架和Spectrum-X SPX以太网机架。更有趣的是,他们(首次)披露了Groq 3 LPX机架,该机架将其新的Groq产品(用于极低延迟推理)与Rubin配对,据称在低延迟场景下可实现每兆瓦高达35倍的推理吞吐量。公司确认Groq LPU将在第三季度发货(这表明Rubin届时也将发货,因为LPU并非独立使用)。同时,他们确认Feynman平台将于2028年问世,包含新款GPU、新款CPU(Rosa)以及铜缆和共封装光学两种扩展方案。
订单展望达万亿美元? 在大会之前,市场曾质疑公司是否会更新其订单展望(此前对Blackwell/Rubin在2025/26财年的订单展望约为5000亿美元)。然而,他们确实选择提供了更详细的进展,目前预计2025至2027财年订单总额将达到约1万亿美元,Colette向我们指出这一轨迹“与主要客户的需求高度吻合”。他们提到自上次披露以来获得了新的订单(包括Anthropic等),并表示虽然约60%可能来自超大规模云厂商,但他们预计有40%将来自其他客户,如新型云服务商、主权实体、工业和企业客户(这向我们暗示需求基础正在进一步拓宽)。
或许更多? 目前市场对2025-27财年数据中心收入的共识总计约为9700亿美元,与NVIDIA的1万亿美元数字相差不远。然而,这1万亿美元(如同之前的5000亿美元)仅是当前时间点的快照,在2027财年结束前还有7个季度的时间去获取更多订单(公司暗示订单仍在增长)。更重要的是,Colette向我们确认,该数字仅包含Blackwell和Rubin(及相关网络产品);它不包括任何其他产品(如Groq LPU、CPX、CPU机架等)。因此,我们推测数据中心收入将远高于这1万亿美元的目标,并远超市场预期(我们注意到,在新的2027财年预测中隐含的约5000亿美元已经超过了市场约4380亿美元的共识预期)。
高平台,低成本……NVIDIA的全平台战略似乎越来越难以被颠覆,因为他们不懈地在其众多产品线(包括GPU、CPU、DPU、(现在的)LPU、网络和存储)上构建软件和硬件堆栈,并持续推动每一代产品的计算成本以数量级下降,这应能让他们在推理计算呈指数级增长时把握机遇;坦率地说,我们越来越想知道其他厂商如何才能与之竞争。
我们乐见所闻……NVIDIA的技术路线图看起来非常坚实,他们的能力差距持续扩大,新的产品应有助于巩固他们在推理市场的地位,正如其在训练市场的主导地位一样,而订单簿暗示业绩有进一步上行空间。考虑到公司的市场地位,其股票估值(在我们看来)几乎低得荒谬(交易于我们2026财年每股收益预测的约15倍)。我们会选择买入……我们给予NVIDIA“跑赢大盘”评级,目标价为300美元。
瑞银点评:在GTC 2026大会上,备受期待的英伟达Groq 3 LPX机架正式发布。根据英伟达的说法,该产品与Vera Rubin平台结合,可实现每兆瓦高达35倍的推理吞吐量提升。Groq管理层将其比喻为在物流车队中“将送货卡车加入18轮大卡车车队”。具体而言,Groq将解码前馈神经网络层放在语言处理单元(LPU,即Groq的芯片)上执行,而将预填充注意力层放在GPU(此处为Rubin)上执行。例如,这可以实现大型参数模型的长上下文推理。适用场景包括:1)需要快速对话反馈且对延迟敏感的语音应用;2)需要快速工作并能快速迭代的代码生成;3)为高端客户提供极致速度。Groq 3 LPX机架包含256个LPU处理器,每个LPU拥有500MB嵌入式SRAM,即每机架总计128GB。该机架还配备了12TB的LPDDR5X DRAM。
据了解,Groq 3 LPU芯片采用韩国三星代工厂的4nm工艺制造。我们不确定其芯片尺寸,但考虑到嵌入式SRAM的容量,它将是一个大型芯片。作为对比,基于14nm工艺的Groq 1尺寸为25x29毫米,但仅包含230MB SRAM。我们估计Groq在三星的初始需求接近每月1.5-2万片晶圆,但我们预计英伟达后续会提出更高的需求。这将需要与三星的HBM4/4E逻辑基板(同样采用4nm工艺)以及Exynos(中端)芯片的产能进行协调分配。
市场此前可能并未充分预期到其对LPDDR5X的需求,尽管在将Groq视为服务器解决方案时,这是一个必要的附加组件。我们预计三家LPDDR5X供应商——三星、SK海力士和美光——都将参与供应,尤其是考虑到LPDDR5X的供应预计将至少持续紧张至2027年。如果我们假设有10%的Vera Rubin机架配置了Groq 3,这将占2027年DRAM总比特需求(DDR+HBM)的0.2%。如果渗透率达到30%,则可能需要为LPU芯片分配更多的代工产能,若实现则将占2027年DRAM总需求的0.6%。
英伟达正在构建的平台战略持续增加着内存容量——从用于NV缓存的NAND闪存,到现在Groq 3所需的LPDDR5X。在一个本就短缺的内存市场中,这些需求最终都会叠加起来。我们继续看好SK海力士(核心买入评级)、三星、美光和南亚科技(均为买入评级)。Groq 3对目前仍处于亏损状态的三星代工厂而言是一个利好。我们预测三星代工业务整体将在2027年实现盈亏平衡。
摩根大通点评:1. 需求能见度翻倍至超1万亿美元,传统企业工作负载成为被低估的新增长引擎
管理层将Blackwell和Vera Rubin平台到2027日历年度的出货/采购订单需求可见性大幅提升至超过1万亿美元(此前在2025年10月的GTC DC大会上给出的目标是到2026年达5000亿美元)。这一数字意味着,相对于市场对2026-2027年数据中心收入的普遍预期,至少有500-700亿美元的上行空间,且未来6-9个月内很可能还会为2027年积累更多订单。
需求构成呈现多元化:约60%来自超大规模云厂商(其内部AI消费正从推荐/搜索转向大语言模型工作负载),其余40%分布在CUDA云AI原生公司、英伟达云合作伙伴、主权AI以及工业/企业客户。管理层将推理需求的爆发称为一个关键催化剂,并指出过去两年通过任务算力增长约1万倍和使用量增长约100倍的结合,计算需求已增长约100万倍。
我们认为,演讲中一个重要且被市场低估的增量信息是,管理层花了大量篇幅阐述通过CUDA-X库加速传统企业工作负载,将其视为超越AI训练/推理的长期需求驱动力。英伟达宣布了与IBM(用cuDF加速WatsonX)、谷歌云(用Snap加速BigQuery,A/B测试可节省约76%成本)、戴尔(集成cuDF+cuVS的AI数据平台)等公司的合作。英伟达推出了用于结构化数据帧的cuDF和用于向量存储/语义数据的cuVS这两个基础的CUDA-X库,并认为特定领域加速是应对摩尔定律失速的唯一可行替代方案。这意味着企业IT堆栈代表了一个独立于AI训练/推理周期的潜在市场扩展,将在超大规模云建设周期之后支撑持续的GPU需求。
2. Groq 3 LPU与Vera Rubin集成,实现大规模解耦推理架构
在我们看来,Groq 3 LPU的集成是本次GTC大会在架构上最重要的新产品发布。管理层将Rubin GPU和Groq LPU描述为“特性迥异的处理器”——Rubin(288GB HBM4,22TB/s带宽,50 PFLOPS NVFP4,台积电3nm制程,3360亿晶体管)为高吞吐量训练和预填充优化,而Groq 3(500MB片上SRAM,150TB/s SRAM带宽,1.2 PFLOPS FP8,三星4nm制程,980亿晶体管)为确定性、低延迟的解码和token生成优化。Groq 3 LPX机架容纳256个LPU,总计128GB SRAM,40PB/s内存带宽,315 PFLOPS推理算力,以及640TB/s纵向扩展带宽,采用全液冷,预计在2026年下半年(可能在第三季度)可用。
该解耦架构的工作流程如下:预填充在Vera Rubin上执行(因其拥有海量KV缓存和上下文);解码的注意力部分在Rubin上运行,而前馈网络/token生成则卸载到Groq LPU上执行。两个系统通过以太网紧密耦合,并进行了延迟优化,由Dynamo(英伟达的开源推理操作系统)进行编排。管理层建议,对于需要超高token速度(如编码、工程、长上下文推理)的工作负载,可将约25%的数据中心功耗分配给LPX,其余75%为纯Vera Rubin NVL72。重要的是,此架构解决了吞吐量(受算力限制)与延迟(受带宽限制)之间的根本性权衡——这是单一处理器类型无法同时优化的——使英伟达能够有效争夺高端推理市场,而该市场历来是ASIC竞争对手的优势领域。
3. 纵向扩展路径:铜缆与CPO双轨并行,符合我们关于CPO采用预期领先于下游准备度的观点
管理层直接回应了铜缆与共封装光学的争论,确认英伟达将同时推进两种方案用于纵向扩展——这是一种务实的对冲策略,而非决定性的转向。对于当前的Vera Rubin平台,Oberon机架使用铜缆扩展到NVL72,并可通过光互连进一步扩展到NVL576。与台积电共同开发的Spectrum-6 SPX共封装光学以太网交换机已全面投产,管理层声称其光能效比传统可插拔光模块高5倍,可靠性高10倍。
对于Rubin Ultra,Kyber机架架构使用垂直计算托盘,通过中央中板和NVLink铜缆进行纵向扩展(最多144个GPU),同时也展示了基于CPO的NVLink交换机解决方案用于机架内互联。管理层表示两种设计将继续并行推进。对于Feynman平台,英伟达将明确提供支持铜缆和CPO两种纵向扩展方案的Kyber机架,以及用于横向扩展的Spectrum-7交换机。这种双路径确认与我们进入GTC前的预期一致,我们预计至少到2027年,铜缆扩展仍将是NVL72/NVL144配置的主流选择,而CPO将在横向扩展及可能的Kyber NVL576+配置中获得份额。
4. Rubin Ultra和Feynman路线图细节超出预期,年度架构节奏得到巩固
英伟达重申了其年度平台发布节奏:Blackwell (2024) → Blackwell Ultra (2025) → Rubin (2026) → Rubin Ultra (2027) → Feynman (2028)。Rubin Ultra按计划将在2027年下半年出货,采用新的Kyber机架架构,每个NVLink域以垂直刀片式配置容纳144个GPU。Rubin Ultra预计将采用4芯片GPU配置和1TB HBM4e。新的LP35芯片将首次集成NVFP4计算单元。
关于Feynman,管理层提供了比预期更多的细节:基于台积电A16制程的新GPU,采用芯片堆叠和定制HBM;名为Rosa的新CPU;与英伟达内部Groq团队共同开发的新LPU;BlueField-5 DPU;ConnectX-10 SuperNIC;NVLink 8以及Spectrum-7交换机。管理层明确提到Feynman将采用“芯片堆叠,定制HBM”,暗示可能通过混合键合将SRAM或LPU芯片更紧密地集成在GPU计算芯片之上。
5. Vera CPU成为独立的数十亿美元收入流,专为智能体AI瓶颈打造
管理层将Vera CPU独立业务描述为“无疑将成为一项价值数十亿美元的业务”——这是一个当前市场共识可能尚未充分计入的增量收入流。Vera采用88个英伟达自研的Olympus ARM核心,LPDDR5X内存子系统在功耗减半的情况下提供1.2TB/s带宽,以及第二代“可扩展一致性架构”,并通过NVLink-C2C以1.8TB/s带宽连接GPU。Vera CPU机架集成256个液冷CPU,支持超过22,500个并发CPU环境。
其应用场景极具吸引力:强化学习和智能体工作流需要大量基于CPU的环境来测试/验证GPU模型的结果,管理层强调CPU正“成为智能体扩展的瓶颈”。早期采用者涵盖超大规模云厂商、系统制造商以及应用级公司。管理层指出Meta已开始大规模独立部署Grace CPU,而Vera将作为其2027年的下一代替代品。我们认为CPU收入流具有高利润率、经常性特点,并且与英伟达通过其平台战略积极推动的智能体AI采用曲线在结构上紧密相连。
总结:
尽管市场争论焦点已转向AI支出周期的持续时间,但我们相信英伟达垂直整合的全栈平台(现已涵盖七种芯片、五种机架系统及整合它们的软件栈)难以被复制。加速的推理需求、通过传统工作负载加速实现的结构性潜在市场扩张以及不断扩大的客户基础,共同支撑着一个比市场当前预期更具持续性的周期。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


