HBM:AI时代真正被卡住的,不只是算力

过去两年,市场一提到 AI,第一反应往往是 GPU、英伟达、算力、数据中心。但如果继续往产业链深处看,会发现一个越来越重要的事实:

AI 不是只缺 GPU,而是缺“能把数据快速喂给 GPU 的记忆体”。

这就是 HBM,也就是高带宽内存。

如果说 GPU 是 AI 的大脑,那么 HBM 就像大脑旁边的短期记忆。AI 模型每生成一个 token,都需要不断从内存里读取参数、搬运数据,再交给 GPU 计算。模型越大、参数越多、推理越复杂,对数据搬运速度的要求就越高。

问题是,GPU 的计算速度已经非常快,但内存把数据送过去的速度跟不上。这种瓶颈就是所谓的 Memory Wall,记忆体墙

在 AI 时代,真正限制芯片发挥性能的,很多时候不是“算不算得动”,而是“数据能不能足够快地搬过去”。

一、HBM 到底是什么?

HBM,全称 High Bandwidth Memory,中文叫高带宽内存。

它和普通电脑里的 DDR 内存条不一样。传统内存更像是放在主板另一端的“仓库”,数据要通过较长的线路传输到 CPU 或 GPU。而 HBM 的设计思路,是把多层 DRAM 芯片垂直堆叠起来,再放到 GPU 旁边,让数据传输距离大幅缩短。

简单理解就是:

普通内存是远处仓库,HBM 是贴身弹药库。

HBM 的优势主要有三点:

第一,带宽更高。
传统 DDR5 的数据总线宽度通常是 64 位,而 HBM3E 可以做到 1024 位,相当于把原来一条窄路,直接拓宽成十几车道的高速公路。

第二,距离更短。
HBM 不是远远插在主板上,而是通过先进封装和 GPU 放在同一个封装系统里。数据传输距离从几厘米缩短到几毫米。

第三,能效更好。
在数据中心里,电费和散热都是实打实的成本。HBM 在单位数据传输上的能耗比传统显存更低,因此不仅提升性能,也帮助降低整体系统能耗。

所以,HBM 不是单纯“更贵的内存”,而是 AI 服务器架构里绕不开的关键组件。

二、为什么 AI 非 HBM 不可?

大型语言模型的核心问题,是参数量巨大。

一个大模型的参数可能达到数千亿甚至更高。每次模型生成内容,都需要反复调用这些参数。GPU 本身很强,但如果内存不能及时把参数送过来,GPU 就会出现“空等”的情况。

这就像一个非常聪明、反应极快的人,旁边却只有一本翻页很慢的笔记本。脑子再快,也得等资料送到眼前。

HBM 解决的正是这个问题。

它通过超高带宽和近距离连接,让 GPU 可以更快读取数据,从而减少等待时间。尤其是在 AI 训练和推理场景中,内存带宽已经成为决定系统效率的重要因素。

这也是为什么 NVIDIA H100、H200、Blackwell,AMD MI 系列,以及 Google TPU、Amazon Trainium 等 AI 芯片路线,都在不断增加 HBM 容量和堆叠数量。

换句话说,无论未来是 GPU 继续主导,还是 ASIC 自研芯片崛起,HBM 的需求都不会消失。

ASIC 不是 HBM 的替代品,反而是新的 HBM 消耗者。

三、HBM 难在哪里?

HBM 之所以贵,不只是因为需求旺盛,更因为它真的难做。

它的核心技术之一是 垂直堆叠。多个 DRAM 芯片像叠松饼一样一层层堆起来,在有限空间里放入更多容量。

但堆起来之后,又有一个新问题:上下层芯片之间怎么传输数据?

这就需要 TSV,穿硅通孔

可以把 TSV 理解成芯片里的“垂直电梯井”。传统芯片之间通信,可能需要从旁边绕线;而 TSV 是直接在硅片上打孔、填入导电材料,让不同层之间可以垂直互联。

这项工艺的难度非常高。

一个 HBM 堆叠里可能有成千上万个连接点,只要其中一部分出现问题,就可能影响整个封装良率。随着 HBM3E、HBM4 推进,堆叠层数更多、间距更小、接口更宽,对制造精度和良率的要求也越来越高。

所以 HBM 的瓶颈,不是简单砸钱扩产就能马上解决。它需要晶圆制造、堆叠、封装、良率控制、客户认证等多个环节同时成熟。

这也是为什么 SK 海力士能在 HBM 上领先,而三星、美光虽然积极追赶,但短期内也很难一下子改变竞争格局。

四、HBM 离不开 CoWoS

研究 AI 芯片供应链,经常会同时看到三个词:

HBM、CoWoS、先进封装。

这三者的关系可以简单理解为:

HBM 是食材,CoWoS 是厨师,先进封装是厨房。

一颗 AI 加速器不是单独一块 GPU 芯片,而是由 GPU 算力芯片、HBM 内存堆叠、基板和中介层共同组成的复杂系统。

HBM 要发挥作用,必须和 GPU 放得足够近,并且通过极宽的接口高速通信。而把 GPU 和 HBM 精准整合到一起的关键技术,就是台积电的 CoWoS 先进封装。

如果没有 CoWoS,GPU 和 HBM 就很难真正做到近距离、高带宽连接,HBM 的优势会大打折扣。

所以,AI 芯片产业链现在的瓶颈不只是 HBM 本身,还有 CoWoS 产能。

这也解释了为什么市场经常说:

AI 算力短缺,表面看是 GPU 不够,深层看是 HBM 和先进封装不够。

逻辑芯片产能并不是最稀缺的部分,真正卡住出货节奏的,往往是 HBM 供应、CoWoS 封装和高端基板。

五、供给为什么这么紧?

HBM 的供给瓶颈可以分成三层:

第一层是 HBM 晶圆和堆叠制造,主要玩家是 SK 海力士、三星电子、美光。

第二层是 CoWoS 先进封装, $台积电(TSM)$台积电是最核心的供应方。

第三层是基板和相关材料,比如 FC-BGA、T-glass 等。

这三层任何一层出问题,整条链都会堵住。

更关键的是,HBM 不是普通 DRAM,可以快速切换产能。它需要专门的工艺、设备、良率爬坡和客户验证。从建厂到真正形成有效产能,通常需要 18 到 24 个月,甚至更久。

也就是说,2025、2026 年宣布的新增资本开支,真正转化为供给,往往要等到 2027 年甚至更晚。

这就是 HBM 超级周期最核心的支撑:

需求现在就来了,但供给没法立刻跟上。

当库存周数从几十周快速下降到几周时,意味着市场进入非常典型的卖方市场。厂商手里没有太多现货,客户必须提前很久签长期订单,价格自然更容易上涨。

对 HBM 厂商来说,这不仅意味着收入增长,也意味着毛利率和议价能力同步提升。

六、这轮 HBM 周期和传统存储周期有什么不同?

传统存储行业有一个特点:周期性很强。

景气的时候大家扩产,价格上涨;等到产能集中释放,库存上升,价格又会下跌。DRAM 和 NAND 都经历过类似周期。

但 HBM 这一轮有点不一样。

它当然仍然有周期属性,但它不是一个单纯的库存周期,而是嵌套在 AI 基础设施扩张里的结构性周期。

长期来看,AI 对带宽的需求仍然在增长。无论是训练更大的模型,还是推理端计算需求提升,都需要更高带宽、更高容量、更低能耗的内存系统。

中期来看,2025 到 2027 年可能是供需最紧张的阶段。因为 AI 资本开支持续高位,而 HBM 和 CoWoS 的新增产能还没有完全释放。

但到 2027 年之后,如果新产能逐步开出,供需可能从严重短缺走向紧平衡。那时价格涨幅可能放缓,厂商利润率也可能从高位回落。

所以,HBM 既是长期结构性成长方向,也是一个阶段性很强的超级周期。

七、AI 资本开支是最大变量

HBM 需求的背后,本质上是全球科技巨头对 AI 数据中心的持续投入。

Google、Microsoft、Meta、Amazon 等超大规模云厂商,正在把大量资本支出投入 AI 基础设施。AI 服务器、GPU、ASIC、网络设备、存储、散热、电力系统,都在受益。

短期看,只要超大规模厂商的 AI CapEx 没有明显下修,HBM 的需求就很难突然消失。

但这也是市场最大的风险点。

如果未来出现以下情况,HBM 周期就可能发生转向:

比如,AI 商业化进展低于预期,投入产出比被质疑;
比如,宏观经济走弱,科技巨头削减资本开支;
比如,利率环境变化,市场重新压缩高资本开支公司的估值;
再比如,地缘政治或出口管制影响供应链。

因此,投资 HBM 不能只看“现在很缺”,还要持续跟踪下游资本开支有没有变化。

八、三种可能的情景

第一种是基本情景:超级周期延续到 2027 年。

在这个情景下,AI CapEx 继续增长,NVIDIA Blackwell、Rubin 等产品出货顺利,CoWoS 扩产按计划推进,但供给仍然追不上需求。HBM 合约价格继续上涨,SK 海力士、三星电子、美光等厂商盈利维持高位。

这种情况下,HBM 产业链仍然是 AI 主线里最强的方向之一。

第二种是温和转折:2027 年后供需趋于均衡。

随着新增产能释放,HBM 供给逐渐改善。需求还在增长,但最紧缺的阶段过去。价格不一定大跌,但涨幅可能收窄,厂商利润率从高位回落。

这种情况下,市场会从“缺货逻辑”切换到“盈利正常化逻辑”。投资者需要重新审视估值,不能只看当下低 P/E。

第三种是黑天鹅情景:AI CapEx 急剧收缩。

如果大厂削减资本支出,或者 AI 商业化被证伪,HBM 订单可能被取消,库存重新积压,价格快速下跌。那时存储行业可能重演过去的下行周期。

这种风险概率未必最高,但一旦发生,杀伤力会很大。

九、投资者应该重点跟踪什么?

看 HBM,不能只看股价涨跌。更重要的是跟踪几个核心指标。

第一,看超大规模厂商的 CapEx 指引。
Google、Microsoft、Meta、Amazon 的资本开支,是判断 AI 基础设施需求最直接的信号。只要这些公司没有明显下修,HBM 需求就有支撑。

第二,看 NVIDIA 和 AMD 的 AI 芯片出货节奏。
尤其是 Blackwell、Rubin、MI 系列等产品的出货量和排产情况,会直接影响 HBM 消耗。

第三,看 DRAM 库存周数。
如果库存长期维持在低位,说明卖方仍有定价权;如果库存回升到较高水平,就要警惕周期拐点。

第四,看 HBM 合约价格。
如果每季价格仍在上涨,说明供需依然紧;如果涨幅持续收窄,可能意味着紧缺程度下降。

第五,看 CoWoS 产能。
HBM 不是孤立出货的,必须和先进封装配合。台积电 CoWoS 产能扩张节奏,是判断 AI 芯片出货的重要指标。

第六,看 HBM4 的良率和量产进度。
HBM4 会带来更高带宽和更大容量,但也会提高制造难度。如果良率提升很快,供给释放可能超预期;如果良率爬坡缓慢,紧缺时间可能延长。

十、结论:HBM 是一条结构性主线,但不能无脑线性外推

HBM 的投资逻辑,可以用一句话概括:

它是 AI 长期结构性成长里,叠加了 2024 到 2027 年供需超级周期的核心资产。

长期看,AI 对内存带宽的需求不会消失。只要模型继续变大、推理继续增长、数据中心继续扩建,HBM 就仍然是绕不开的基础设施。

中期看,2025 到 2027 年可能是 HBM 供需最紧、盈利弹性最强的阶段。厂商拥有定价权,利润率有望维持高位。

但短期交易上,也不能简单一句“HBM 很缺”就无脑追高。

尤其是像 $南方两倍做多海力士(07709)$SK 海力士这类公司,表面 Forward P/E 看起来可能很低,但这个低估值是建立在超级周期盈利基础上的。如果用十年正常化盈利去看,估值未必真的便宜。

所以,正确的分析方式不是简单说“P/E 低,所以低估”,而是要把两件事分开看:

一部分是 AI 带来的长期结构性价值;
另一部分是供需错配带来的周期性超额利润。

只有把这两部分拆开,才能更清楚地判断 HBM 到底是长期机会,还是阶段性高景气交易。

对投资者来说,HBM 这条线仍然值得重视。但越是在景气度最强的时候,越要盯紧 CapEx、库存、价格、CoWoS 和良率这些信号。

因为真正的周期拐点,往往不是出现在大家都悲观的时候,而是出现在所有人都觉得“永远缺货”的时候。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论2

  • 推荐
  • 最新
  • MonaCurme
    ·05-22 14:02
    这波就盯 CoWoS 了 产能跟不上HBM再紧也白搭
    回复
    举报
  • 梅路艾姆
    ·05-22 21:48
    这篇文章不错,转发给大家看看
    回复
    举报