目 录
1、核心判断:GPU 不是交付单位,GPU 机柜才是
2、研究总纲:从芯片到可计费算力的九道闸门
3、GB300:一台 GPU 机柜已经是一个小型超级计算机
4、Rubin:从 Blackwell Ultra 机柜走向六芯片协同的 AI Factory
5、有效算力模型:从 GPU 到收入,中间至少有七层折扣
6、HBM 与 CoWoS:GPU 机柜的第一道有效产能折扣
7、机柜内互连:72 颗 GPU 能不能像一个系统工作
8、机柜外网络:有效算力利用率的第二定价层
9、液冷:高功率 GPU 机柜的准入门槛
10、电源:从成本件变成算力上线的前置瓶颈
11、ODM/OEM:低毛利组装外衣下的机柜交付权
12、数据中心上线和软件:最后一公里决定 CapEx 回报
13、公司和环节排序:先买瓶颈,再买兑现
14、财务验真:从订单到现金流,要看五张表
15、证伪清单:什么时候 GPU 机柜主线需要降权
16、季度跟踪表:每季按同一张表打分
17、最终判断:GB300/Rubin 让算力链从“买 GPU”进入“交付 GPU 机柜”
数据口径与来源
AI GPU机柜纵剖第一篇:从GB300到Rubin,GPU机柜如何变成可上线算力资产
GB300 和 Rubin 之后,AI 算力的最小投资分母不再是 GPU 颗数,而是可上线 GPU 机柜。GPU 是名义算力,HBM 和 CoWoS 是近端带宽,NVLink 与网络决定利用率,液冷和电源决定物理可运行,ODM/OEM 决定交付速度,数据中心和软件决定最终可计费收入。真正值得重估的公司,不是所有 AI 服务器概念股,而是能把 GPU 供给折成有效算力资产、并且能被季度财务验证的瓶颈环节。
1、核心判断:GPU 不是交付单位,GPU 机柜才是
AI 硬件研究最容易犯的错,是把 GPU 出货直接等同于算力交付。H100 时代,这种简化还能勉强解释一部分行情;到了 GB200、GB300 和 Vera Rubin,已经不够用了。云厂商买到 GPU 并不等于获得可售算力,GPU 还要穿过 HBM、先进封装、ABF 基板、主板、背板、NVLink、NIC/DPU、液冷、电源、机柜组装、系统测试、数据中心接电接水、集群网络、调度软件和运维系统,才会变成训练吞吐、推理实例、tokens 和云收入。
这就是新系列要研究的对象:GPU 机柜不是 GPU 外壳,而是把昂贵芯片折成可上线、可计费、可维护算力资产的系统工程。
这句话有三层含义。
第一,GPU 机柜是有效算力的第一层折扣。名义 GPU 供给越贵,客户越不能接受它在等待 HBM、等待 CoWoS、等待液冷、等待电力、等待网络、等待现场调试里空转。机柜上线率会直接影响云厂商的资本开支回报。
第二,GPU 机柜是产业链价值量的重新分配器。过去市场把钱主要给 GPU、HBM 和先进封装;但 GB300/Rubin 之后,液冷、电源、连接器、AEC/背板、高端 PCB/CCL、ODM/OEM、数据中心电气和软件运维会一起进入定价表。它们不一定有 GPU 那样的毛利率,却决定 GPU 能不能变成收入。
第三,GPU 机柜是公司排序的重估坐标。不能再只问“谁受益 AI 服务器”,而要问五个更具体的问题:谁定义平台,谁拿到客户可用带宽,谁控制机柜内互连,谁解决高功率物理瓶颈,谁把整机柜交到客户机房并通过验证。
本篇回到原始投行研报和公开平台资料以后,最重要的修正是:GPU 机柜已经不是远期想象,而是 2026 年进入月度出货、季度收入、毛利率和现金流验证的现实变量。摩根士丹利、瑞银、高盛、杰富瑞、小摩等不同口径指向同一个结论:GB200/GB300 NVL72 的 rack 出货正在成为 ODM 财务的主驱动,Rubin/Rubin Ultra 会继续提高液冷、电源、800V DC、NVLink 与整柜测试的复杂度,真正的投资问题已经从“谁有 AI 服务器订单”切换成“谁能把整柜交付并上线”。
这张表把研究对象从“谁有 AI 服务器订单”改成“谁能减少 GPU 到收入之间的折扣”。这也是 AI PCB、网络互连和数据中心物理瓶颈可以被放回同一条主线的原因:它们不是彼此抢题,而是在 GPU 机柜这条纵轴上承担不同闸门。
数据中心物理拐点 — 美银 Rubin Ultra 3.5kW、液冷 3000 倍能效与 800V 直流电量产表
先进封装三足共振进入 2027 价差期 — 欣兴电子 ABF 缺口 35%、联发科 TPU 协调芯片放量、CoWoS 满载万字全解
AI 网络三重验证:Lumentum、Astera、Arista 财报深度解读 — 光互连、PCIe Fabric 与以太网交换系统一起进入瓶颈定价
2、研究总纲:从芯片到可计费算力的九道闸门
GPU 机柜纵向研究不是把产业链横向再排一遍,而是顺着算力形成过程往下拆。一个模型训练任务或推理服务并不关心某个环节的概念热不热,它关心的是 GPU 是否拿得到数据、GPU 之间是否连得起来、机柜是否能散热、机柜是否能上电、网络是否稳定、软件是否能调度、客户是否能计费。
这个总纲决定了写法。GPU 机柜不是“从 NVIDIA 开始,最后补几段液冷和电源”,而是每一道闸门都可能成为短期瓶颈。短期看 GB300,瓶颈集中在液冷、电源、ODM 交付、机柜内外网络和数据中心上线;中期看 Rubin,瓶颈会进一步推向 HBM4、NVLink 6、ConnectX-9、CPO、1.6T 网络、功率密度和更复杂的整机柜测试。
这也是为什么新系列要独立出来。PCB 系列已经把材料、板厂、设备和现金流写透,网络互连系列已经把 1.6T/3.2T、InfiniBand、AI Ethernet 和 NVLink Fusion 写透;GPU 机柜系列要做的是把这些环节重新放进一台机柜里,回答它们在“有效算力”这个总目标下的优先级。
3、GB300:一台 GPU 机柜已经是一个小型超级计算机
GB300 NVL72 的关键不是“72 颗 GPU”这个数字,而是它把 72 颗 Blackwell Ultra GPU、36 颗 Grace CPU、NVLink、ConnectX-8、DPU、液冷、电源和管理软件放在一个 rack-scale 系统里。NVIDIA 官方规格显示,GB300 NVL72 配置 72 颗 Blackwell Ultra GPU 和 36 颗 Grace CPU,rack 内 NVLink 带宽为 130 TB/s,fast memory 为 37 TB,其中 GPU memory 为 20 TB,CPU memory 为 17 TB LPDDR5X,CPU core count 为 2,592 个 Arm Neoverse V2 cores。ConnectX-8 SuperNIC 为每颗 GPU 提供 800 Gb/s 网络连接,可接 Quantum-X800 InfiniBand 或 Spectrum-X Ethernet。
如果只看这些参数,很容易把 GB300 写成“更强的 GPU 服务器”。但 NVIDIA 参考架构里还有几个更重要的系统信息:GB300 NVL72 采用液冷 MGX 架构;9 个 NVSwitch tray 支撑 72 颗 GPU 全 non-blocking P2P 连接;集成 tray 级和 rack 级液体泄漏检测;8 个 33 kW power shelf,每个 power shelf 有 6 个 5.5 kW PSU;满 rack 最高约 142 kW;compute tray 作为基本模块,每 tray 包含 4 颗 Blackwell Ultra GPU 和 2 颗 Grace CPU。
这些信息说明,GB300 已经不是传统服务器意义上的“节点集合”,而是一台由多个 tray、多个 switch tray、多个 power shelf、液冷水路、网络接口和管理软件组成的 rack-scale AI machine。
Microsoft Azure 的 GB300 集群给了真实部署样本。Azure 宣布面向 OpenAI workload 的大规模 GB300 NVL72 生产集群,超过 4,600 颗 NVIDIA GB300 NVL72 Blackwell Ultra GPU;每个 rack 有 18 个 VM、72 颗 Blackwell Ultra GPU、36 颗 Grace CPU、每 GPU 800 Gb/s 跨 rack scale-out 带宽、rack 内 130 TB/s NVLink、37 TB fast memory,最高 1,440 PFLOPS FP4 Tensor Core performance。更关键的是,Azure 公开强调,前沿 AI 基础设施需要把 computing、memory、networking、datacenters、cooling 和 power 作为统一系统重构。
这句话的投资含义很硬:云厂商真正采购和部署的是一套统一系统,不是单独采购 GPU 后再找人装进机箱。GB300 的订单能不能转成收入,要看数据中心电力、冷却、网络、系统软件和机柜预验证是否一起到位。
CoreWeave 的部署样本从另一个角度验证了同一件事。CoreWeave 与 Dell、Switch、Vertiv 协作部署 GB300 NVL72,软件栈包含 Kubernetes、Slurm on Kubernetes、观测能力和 Rack LifeCycle Controller。也就是说,新型 AI 云厂商的核心能力不是“拿到 GPU”这么简单,而是把 Dell 的服务器系统、Switch 的数据中心基础设施、Vertiv 的电力和冷却、自己的云原生软件栈组合成客户可用平台。
更关键的是,卖方月度 tracker 已经把 GB200/GB300 NVL72 机柜从“未来订单”拉回到“当月出货”。摩根士丹利在 2026 年 4 月的大中华技术硬件报告中,预计 2026 年 GB200/GB300 NVL72 rack 出货为 7-8 万柜,较 2025 年约 2.9 万柜实现 100% 以上增长;2026 年 3 月行业 GB200/GB300 rack output 约 8,500 柜,环比增长 34%。同一份报告还特别提醒,实际交到终端客户的数据可能低于 tracker 中的 rack equivalent,因为纬创的 compute tray L10 等效数量还没有扣除 L11 整柜组装和测试时间。这一点非常重要:L10 出货强,不等于 L11 上线强。
瑞银的广达报告与上述 tracker 相互印证。广达的收入弹性来自 NVL72 机柜放量,但利润率压力也来自同一个方向:高 ASP 的 AI rack 和 memory pass-through 会把收入做大,同时稀释表观毛利率。因此 ODM 的主线不是“收入越高越好”,而是“收入增长能不能穿过毛利率和现金流验真”。
4、Rubin:从 Blackwell Ultra 机柜走向六芯片协同的 AI Factory
如果说 GB300 是 Blackwell Ultra 把 GPU 机柜推到真实部署阶段,Vera Rubin 则把 GPU 机柜进一步升级为六芯片协同的 AI factory 单元。NVIDIA 官方口径显示,Vera Rubin NVL72 集成 72 颗 Rubin GPU、36 颗 Vera CPU、NVLink 6、ConnectX-9 SuperNIC 和 BlueField-4 DPU。技术博客把 Vera Rubin 平台拆成 Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9、BlueField-4 DPU、Spectrum-6 Ethernet switch 等芯片。
这组信息对投资最重要的不是单点性能,而是架构方向。Rubin 不再只是“下一代 GPU”,而是把 CPU、GPU、scale-up、scale-out、DPU、安全、存储卸载和 Ethernet 交换放进同一套系统设计。它的核心变化是:GPU 机柜里的每一层连接都在变快,也都在变贵。
Vera Rubin compute tray 的公开口径也很关键:每 tray 约 200 PFLOPS NVFP4 AI performance、14.4 TB/s NVLink 6 bandwidth、2 TB fast memory、BlueField DPU 800 Gb/s、ConnectX-9 每 GPU 1.6 Tb/s SuperNIC bandwidth,并且是完全液冷设计。NVLink 6 switch tray 则用于把多个 compute tray 变成一个 rack-scale accelerator。
Rubin 时代的最大变化,是 GPU 机柜的价值不再只被 GPU 性能解释。HBM4、NVLink 6、ConnectX-9、BlueField-4、Spectrum-6、CPO 相关光互连、液冷和高功率电源,都在同一个平台里被重新定价。也就是说,Rubin 会把当前分散在 HBM、CoWoS、网络、液冷、电源、PCB/连接器里的多个主题压回一个共同变量:每一台 GPU 机柜能否以更低的单位 token 成本、更高的利用率、更稳定的运行时间变成客户收入。
因此,Rubin 不是对 GB300 的替代叙事,而是对 GB300 机柜体系的压力测试。谁在 GB300 时代能把 L10/L11、液冷、电源、连接器和网络交付做扎实,谁才有资格在 Rubin 时代继续拿到份额;谁只是抢到一轮组件订单,却没有客户认证、良率、现场运维和现金流,就很容易在平台代际切换时被证伪。
Rubin Ultra 的研报分歧反而强化了这条主线。瑞银在 2026 年 4 月的 Rubin Ultra 路线图报告中判断,Rubin Ultra 可能维持 2-GPU die CoWoS package,而不是早期市场期待的 4-GPU die package;单 package 继续使用 2 个 GPU die、8 个 HBM stack、interposer 和 substrate。表面上看,2-die 方案不如 4-die 激进,但它对机柜产业链的含义是:单位 rack 数量和整柜 value-add revenue 可能反而更高,ODM、基板、液冷、电源和整柜测试继续拥有更长的兑现窗口。
这也解释了为什么 800V DC 不能被简单写成“全数据中心大替换”。杰富瑞 800V DC 专家纪要的口径更克制:Vera Rubin 这类高功率 GPU rack 可能必须使用 800V DC,但所有数据中心不会变成 800V-only,传统低压配电仍会服务存储、网络和普通云计算负载。换句话说,800V DC 的投资结论不是“所有配电都重来”,而是“高端 GPU 机柜白区 power sidecar 和高功率电源架构率先重估”。
5、有效算力模型:从 GPU 到收入,中间至少有七层折扣
AI 算力链最容易被市场高估的地方,是只看 GPU 芯片供给;最容易被低估的地方,是 GPU 到云收入之间的折扣层越来越长。GB300/Rubin 时代,这个折扣链至少有七层。
这个模型会改变公司排序。GPU 当然仍是最大利润池,但如果 HBM、CoWoS、液冷、电源和交付卡住,GPU 的名义供给无法变成可售算力。对云厂商来说,真正的 ROI 不是“买了多少 GPU”,而是“多少 GPU 在多少时间内以多少利用率对外提供训练或推理服务”。对投资者来说,真正要买的不是每个 AI 概念,而是折扣链里短期最硬、长期最能守住客户的环节。
这张函数表告诉我们,GPU 机柜的赢家并不是单纯卖最多零件的公司,而是能在关键变量上拥有客户认证、供应约束和财务兑现的公司。
6、HBM 与 CoWoS:GPU 机柜的第一道有效产能折扣
GPU 机柜看起来是服务器问题,第一道瓶颈却在芯片和封装之前。没有 HBM,GPU 算不动;没有 CoWoS,GPU 和 HBM 贴不到一起;没有 ABF 基板、测试和热管理,先进封装也进不了系统。
HBM4 报告里已经说明,Rubin 时代真正有价值的不是名义 HBM4 产能,而是 Rubin 可用带宽。SK 海力士、三星和美光都能宣布产品进展,但客户真正买的是通过 base die、TSV、TCB、MR-MUF、KGSD burn-in、high-speed test、CoWoS、整机验证之后仍然稳定工作的有效带宽。HBM4 从 12Hi 到 16Hi,测试时间、堆叠良率、热设计和客户认证都会成为供应折扣。
CoWoS 报告里也已经说明,CoWoS 的稀缺不是总片数稀缺,而是客户可用产能稀缺。CoWoS-S、CoWoS-R、CoWoS-L 不是一个均质产能池,不同客户、不同封装面积、不同 HBM stack 数、不同测试流程,会占用不同有效产能。Blackwell、Rubin、Google TPU、AWS Trainium、AMD MI、Broadcom ASIC 同时争抢后,CoWoS 已经从 NVIDIA 单中心瓶颈变成多客户系统平台。
这条线给新系列的结论是:GPU 机柜不是从 ODM 开始,而是从“客户可用 HBM + 客户可用 CoWoS”开始。ODM 再强,如果上游 HBM 和 CoWoS 分配不够,也交不出 rack;HBM 和 CoWoS 再强,如果后端机柜上不了电、散不了热,也无法变成收入。
7、机柜内互连:72 颗 GPU 能不能像一个系统工作
GPU 机柜和传统服务器最大的差异,是机柜内互连不再是布线问题,而是系统性能本身。GB300 NVL72 的 72 颗 GPU 需要通过 NVLink 和 NVSwitch 形成 rack-scale domain;Rubin 进一步通过 NVLink 6 switch tray 提高 scale-up 带宽和 collective 操作效率。这意味着,机柜内的 switch tray、背板、连接器、AEC/DAC、retimer、PCB/CCL、线缆管理和热设计都进入关键环节。
这条线和 AI 网络互连系列有交集,但边界不同。网络互连系列看的是从 1.6T/3.2T 到交换 ASIC、光互连、CPO/OCS 的全网络地图;GPU 机柜内互连看的是 rack 内短距离、高密度、高功率、低延迟连接。这里的核心问题不是“光还是铜”,而是“昂贵 GPU 是否等待、重传、掉速或因局部故障影响整柜利用率”。
这也解释了为什么 PCB 不能再孤立写。AI PCB 系列已经回答了高端板为什么涨、谁有客户认证、谁把订单变现金流;GPU 机柜系列要回答的是,哪些 PCB/CCL 和连接器真的处在机柜内互连的核心位置。交换机主板、线卡、背板、光模块 PCB、UBB/OAM、高速连接器相关板位,会比普通服务器板更接近系统瓶颈。
精彩评论