一座 GW 级 AI 数据中心到底要花多少钱?从 Vera Rubin 机架经济学看 AI 算力的真实成本结构

花街S姐
06-08 21:24

市场上流传较广的说法是,一台 Vera Rubin(下称 VR)NVL72 机架大约值 800 万美元。但如果把每一颗芯片、每一条内存、每一块硬盘、每一台交换机自下而上加总,得到的数字更接近 910 万美元

这一百多万美元的差距,几乎全部来自内存,更准确地说,来自对 HBM(高带宽内存)价格的假设是否过时。如果沿用历史 HBM4 价格(约 16.6 美元/GB),逐项加总确实能落在 800 万美元附近;但当 VR 在 2027 年开始放量时,HBM4 单价大概率已升至接近 50 美元/GB 的水平。一旦把这个涨价代入模型,整机成本就被顶到了 900 万美元以上。

所以当下任何一份 AI 服务器成本拆解,保质期都很短。在 DRAM 与 NAND 价格剧烈波动的环境里,今天的精确测算可能几个季度后就失真,跟踪这个赛道必须持续把内存价格的变化重新代回模型。

二、成本骨架:算力仍是主梁,但内存正在快速增长

下表是三代架构(H100 DGX、GB200 NVL72、VR NVL72)的机架成本对照,单位为千美元。可以清楚看到成本结构的代际迁移。

几个值得注意的结构性变化:

GPU 仍然是最大的单一成本项。

即便内存大幅涨价,不含 HBM 的纯 GPU 仍占去约 400 万美元,接近整机的一半。Rubin GPU 单价约 5.5 万美元,一台机架装 72 颗,仅 GPU 裸成本就是 396 万美元;配套的 Vera CPU 单价约 5 千美元、36 颗,再加 18 万美元。算力部分(GPU+CPU+各自内存)合计约 600 万美元,占整机三分之二。

内存与存储正从配角变成主角。

这部分整体约 320 万美元,约占整机 35%,远高于按历史价格推算的约 200 万美元。它是 910 万美元与 800 万美元两个口径之间最主要的差额来源,具体可拆成三块:

HBM:VR 规格搭载约 20.7 TB HBM4。按当前约 16.6 美元/GB 计价,HBM 成本仅约 34 万美元;但预计 2027 年价格升至约 48 美元/GB,叠加约 10% 的转嫁加价后,客户实际承担的料价接近 53 美元/GB,对应 HBM 成本从 34 万美元跳升到约 110 万美元。这一项几乎单独解释了与市场口径的差距。

CPU 端 DRAM:VR 配置 54 TB LPDDR5X。虽然移动端 LP5X 合约价约 11.4 美元/GB,但其 SOCAMM 架构相对移动内存有约 30% 溢价,实际计价约 14.85 美元/GB,对应约 80 万美元。值得注意的是,CPU DRAM 容量相比上一代在 TB 口径上增长了约 320%,远快于 NAND 与 HBM 约 50% 的容量增幅——这意味着 DRAM 含量的提升不只是涨价,更是用量的结构性扩张。

直连 NAND 存储:VR 约 3.5 PB 的 NAND 内容,按约 0.37 美元/GB(同样含约 30% 溢价)计价,约 130 万美元。一年前 NAND 还便宜约 75%,如今存储已成为不容忽视的成本块。

当前被反复强调的关键词是”转嫁”:Nvidia 很可能拥有某种动态定价机制,与其自己吞下内存涨价、压缩毛利,不如把成本顺势传导给终端客户,甚至加收一道价差。这意味着内存涨价对 Nvidia 利润率的冲击有限,但会直接抬高数据中心运营商的购置成本。

三、机架之外:网络、散热与供电的”隐性大头”

相比算力和内存,机架的其余部分透明度较低,但同样重要。

网络约占整机 13%,合计约 127 万美元,其中约 8% 为机内纵向扩展(scale-up)、约 5% 为横向扩展(scale-out)。

细分来看,NVLink 交换约 25 万美元、线缆约 24 万美元、背板及其他纵向内容约 38 万美元;横向一侧的 SpectrumX 交换约 20 万美元,约占横向网络成本的一半。

需要留意的是,用第三方交换机替换 SpectrumX,是超大规模客户偏离 Nvidia 参考架构最常见的做法之一,因此网络这块的实际成本在不同客户间差异较大。

散热与供电单项各约 15 万美元。供电含量从 GB200 的约 5 万美元跳到 VR 的约 15 万美元,在整机里的占比从约 1.0% 升至约 1.6%——在 800VDC 高压直流开始导入、单机架功率密度飙升的背景下,供电的含金量提升速度甚至快于整机价值本身。这也是为什么供电与散热环节被视为这一轮的结构性受益方向。

此外还有约 10 万美元的机箱、约 10 万美元难以精确归类的其他内容(如被市场热议、但难以高确信度量化的 MLCC 等),共同把整机推到 910 万美元。

四、从机架到 GW:约 470 亿美元的全口径资本开支

把单机架成本放大到一个吉瓦(GW)级数据中心,需要两步换算。

第一步,功率到机架数。无冗余设计下,VR 机架额定功率 220 kW(GB200 为 130 kW)。若机架约占数据中心总电力的 78%(按 1.15 PUE、机架占 IT 设备功率 90% 估算),则单机架对应的数据中心总功耗约 281 kW,意味着 1 GW 电力可支撑约 3,557 台机架

第二步,成本加总。按单机架 910 万美元、约 3,557 台计算,机架成本约 323 亿美元/GW;再叠加约 150 亿美元/GW 的机架外物理基础设施(机电系统约 112 亿、土地与建筑约 38 亿),全口径 AI 数据中心资本开支约 473 亿美元/GW

可以看到,尽管单机架越来越贵、单 GW 能装的机架越来越少,但每 GW 的总资本开支仍在逐代抬升(约 470 亿美元,对应本轮约 9% 的环比增幅)。

五、被忽视的好消息:性价比仍在加速

成本上行不等于性价比恶化。按 Nvidia 标称规格,VR NVL72 单机架 FP8 性能达 2,520 PLOPS,而 Blackwell(GB200)仅 720 PLOPS。换算到每 GW、每美元口径:

也就是说,同样一美元的资本开支,VR 能买到的算力相比 GB200 接近翻倍。成本在涨,但”算力性价比”涨得更快——这正是支撑 AI 资本开支持续扩张的底层逻辑:只要单位算力成本仍在快速下降,更多此前算不过账的应用场景就会被陆续解锁。

六、真实经济成本:折旧才是 TCO 的主角

如果从总拥有成本(TCO)而非一次性资本开支的角度看,结论会更加偏向硬件本身。

电费并非主导项。即便按偏高的 0.15 美元/kWh 计算,运营 1 GW 容量一年的电费约 13 亿美元。

人力几乎可忽略。据称即便是最大的数据中心也仅需 8–10 人运营,年成本不过数十万美元。

折旧才是大头。按 5–6 年折旧周期,仅资本开支对应的年折旧就达约 72 亿–79 亿美元,是运营成本中绝对的主导项。

更关键的是结构问题:服务器、存储、网络这类 IT 硬件的折旧年限(多数厂商披露为 4–6 年)明显短于机电设备和土地建筑(往往 10 年以上甚至数十年)。这意味着,从真实经济成本(而非现金资本开支)的角度看,重心会比账面更进一步压向服务器、存储与网络

这也引出一个产业现实:在算力极度紧缺的环境下,让 GPU 尽可能长时间地跑下去通常仍然划算,即使老 GPU 的性价比不如新品。

运营商会优先用新建产能去安置新芯片;只有当电力或物理基础设施成为硬约束、实在腾不出空间时,才会认真考虑”拔掉”旧 GPU 来给新卡让位。

七、每 GW 成本上行,DRAM 与供电含量继续提升

把上述拆解外推,可以勾勒出几条趋势线:

其一,每 GW 成本将继续上行,意味着电力需求的增长会滞后于资本开支的增长。 本轮每 GW 成本增幅约 9%,略快于 Blackwell 的 8%;而市场对超大规模厂商与新云(neocloud)2027 年资本开支增速的一致预期约为 13%。换句话说,相对平稳的电力产能增量或许就足以支撑资本开支的继续扩张。这与电力将持续加速扩张的乐观叙事略有出入,但也可能反过来说明:市场对超大规模资本开支的预期本身还有上修空间。

其二,DRAM 与供电含量的提升最为突出,基板含量也在增加。

前文已提到 CPU DRAM 在容量上的 320% 跃升,叠加 CXL 内存用于 KV 缓存等新兴用法,DRAM 有望成为不成比例的受益方向(前提是供给跟得上);供电含量占比从约 1.0% 升至约 1.6%,则使供电环节成为另一条结构性受益线。

此外,作为多个组件上游的 PCB/基板(尤其是 ABF 基板)也在持续增量。

其三,内存价格的波动性远高于历史。

NAND 价格从 2023 年 4 月低点到 2026 年 5 月上涨约 11.3 倍(年化约 115%),与 2019–2023 年约 -20% 的年化趋势形成鲜明对照。

考虑到 Nvidia 会把价格波动转嫁给终端,任何使用这类成本模型的人都必须高频更新内存价格假设,否则估算会迅速失真。

最后,据公开信息,AI 应用在 2026 年明显加速,部分头部 AI 实验室的收入增长极为陡峭。在算力依旧紧张的背景下,Rubin 周期带来的算力台阶式抬升,有望进一步打开 AI 的采用空间。

八、对投资者的启示与风险提示

综合来看,这份拆解给出几条可操作的线索:

成本结构在迁移,而非单纯抬升。 算力仍是主梁,但内存(尤其 HBM 与 CPU DRAM)、供电、基板的含量都在加粗,这些环节的供应商弹性更值得关注。

内存价格是模型最大的不确定性。 整机成本对 HBM/DRAM/NAND 价格高度敏感,且 Nvidia 倾向于转嫁而非自吸,定价波动会直接体现在客户的购置成本与运营商的 TCO 上。

性价比仍在改善是资本开支扩张的底层支撑。 只要每美元算力继续快速提升,资本开支的故事就难以轻易证伪;但每 GW 成本上行也意味着,电力与物理基础设施的约束会越来越成为产业节奏的决定变量。

上述测算建立在大量假设之上(内存价格路径、机架占总功率比例、PUE、折旧年限、芯片单价、网络架构选择等),不同假设会得到差异巨大的结果;规格也可能随产品迭代而调整。本文仅为基于公开研报与资料的研究性分析,不构成任何投资建议;相关数字会随市场(尤其是内存价格)快速变化而过时,使用时需结合最新数据自行校准。

特斯拉(TSLA) ROUNDHILL GENERATIVE AI & TECHNOLOGY ETF(CHAT) 通用人工智能 ETF-AGIX(AGIX)

修改于:06-08 21:35
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法