AI 硬件供应链全图谱:市场追逐的热点到底是什么?一文看懂【下】

接着上篇继续。

今年非常流行的一句话是要站在光里,不要光站在那里。这个板块拆开详解光互联、光模块到底是什么东西。

由于电信号在 PCB 上传不远、铜缆超过几米衰减就太大,于是需要把电信号转成光、用光纤传输、到对端再转回电。光模块就是完成电-光-电转换的器件。

据 TrendForce,2026 年 AI 光模块市场约 260 亿美元;1.6T 进入超级周期,出货量从 2025 年约 180–250 万只暴增到 2026 年 2000–3000 万只以上,英伟达一家占 1.6T 需求六成以上。

利润集中在两端:模块组装由中国厂商主导但相对薄利(中际旭创占英伟达 800G 采购五成以上、2024 年营收约 33 亿美元同比+123%、净利率 20%–22%;新易盛紧随)。

真正的价值高地是上游的 EML 激光芯片。Lumentum 占高端 EML 约 50%–60%、是唯一量产 200G/lane EML(1.6T 关键器件)的厂商,Coherent 的 InP 磷化铟激光已售罄至 2027 年。

这场路线之争到底在争什么?

起因是两堵墙——速率冲到 1.6/3.2T、集群奔向百万 GPU 时,(a) 交换芯片到面板的电信号链路成为瓶颈,(b) 带 DSP 的可插拔模块太耗电(功耗墙)。

围绕如何把光用得更省电,链路层出现三条路线,本质是在”省电”和”可维护/成熟度”之间取舍

可插拔光模块(带 DSP,现状主流)

标准形态(OSFP/QSFP-DD)、遵循 OIF 标准,因此可以独立选型、可热插拔、采购灵活、议价力强;但 800G 模块功耗约 14–17W,且受电气传输距离限制。预计仍主导到 2027 年。

LPO(线性可插拔光学)

把模块里的 DSP 去掉,改由交换芯片的 SerDes 直接”线性驱动”光器件——800G 功耗降到约 7–8.5W(省 40%–50%)、每跳延迟更低,同时保留可插拔形态(仍可维护)。已在英伟达 Spectrum-X 和 Meta 的网络中出货。代价:去掉 DSP 就失去了对信号失真的补偿,链路预算变紧、互通更难、只适合短距离,可能只能多撑一两代。Arista、Meta 是主推方。

CPO(共封装光学)

把光引擎直接搬进交换芯片(或 GPU)的封装里,几乎消灭那段耗电的电链路。Meta 与博通的实测显示,Bailly 51.2T CPO 交换机里光引擎每 800G 仅耗约 5.4W,对比可插拔约 15W,省约 65%;到 3.2T 以上,可插拔逼近热极限,CPO 从”可选”变”必选”。

代价是可维护性:光引擎坏了可能要换整个封装/交换机,加上供应链不成熟、可靠性待验证(超大厂的应对是多端口冗余、并先推 CPO 交换机积累现场数据;Meta 已发布上百万端口小时的 Bailly 可靠性数据)。

两种 CPO 打法分化。

博通把光引擎永久键合进 ASIC 封装(Bailly 51.2T、Tomahawk 6 Davisson 102.4T),走开放生态、让客户自由选型;

英伟达更模块化:用可拆卸的光子组件(OSA)和前面板可插拔激光器,靠台积电 COUPE 硅光工艺和 SoIC 堆叠把光电芯片叠在一起,走垂直整合(Quantum-X InfiniBand 2025 下半年、Spectrum-X Ethernet 2026 下半年)。

硅光(SiPh)在这里面是技术底座它把调制器、波导、光探测器集成到硅上,是高端可插拔和 CPO 共同的技术平台(激光器因为难在硅上集成,通常仍外置)。台积电 COUPE、英特尔、GlobalFoundries 提供硅光制造,Ayar Labs、Lightmatter 则在做片上光 I/O:把光直接接到 XPU 上,是更激进的方向。

OCS(光交换)则是另一层,拓扑/组网,不是链路器件。

传统组网靠电交换芯片做数据包交换,OCS 则用 MEMS 微镜把光束物理地重新连接,切换的是”整条光路”。谷歌首创(在 TPU pod 里用 OCS 动态重构网络拓扑,省掉成层的电交换机和它们配套的光模块,从而降功耗、降成本),现在正从长途通信走向机架级,英伟达也在引入。

它和电交换的 spine 竞争,与 CPO/LPO 是互补关系。

这个板块总结来说,链路层是省电↔可维护/成熟的光谱(可插拔 → LPO → CPO),硅光是它们共同的底座;组网层是 OCS 挑战电交换;而铜在机柜内仍是赢家,光接管跨机柜,整个前沿是把光推到离芯片越来越近的地方。

配套的交换 ASIC(博通 Tomahawk/Jericho、英伟达 Spectrum/Quantum)和 DPU 也在同一条主线上。

板块 E:散热与液冷

GPU 功耗冲到 500–600W、机柜功率密度从 2024 年约 50kW 走向 2029 年约 1MW(Vertiv 预测),热量必须及时带走,否则芯片降频甚至烧毁。空气导热能力太弱,超过约 50kW/机柜风冷就失效,于是改用液体(导热能力比空气强几个数量级)。

冷却液从 CDU(冷却液分配单元)泵出 → 流进贴在 GPU 上的冷板(直触式 D2C)吸热 → 升温后的液体回到 CDU 与设施侧冷却水换热 → 排到冷却塔;浸没式则更激进,把整台服务器泡进绝缘冷却液(单相或两相)。

数据中心液冷市场从 2025 年约 48 亿美元增长到 2026 年约 60 亿美元、2035 年约 270 亿美元,AI 专用液冷增速更高(2026–2030 年复合约 32%)。

Vertiv 以约 11% 份额居首,且是唯一同时覆盖供电与制冷的大厂;施耐德通过收购 Motivair 补齐 CDU 与冷板;其余有 Boyd、CoolIT、Asetek、被特灵(Trane)收购的浸没式龙头 LiquidStack,以及台系冷板/散热供应链——双鸿、奇鋐、讯凯和台达。

这是一个正在快速整合的细分,高增长但参与者多、竞争相对充分,赚的是成长的钱。

板块 F:供电与电源(瓶颈下移到电网)

这块在做的事就是把市电一路降压、稳压成 GPU 需要的不到 1V、几百上千安培的直流,且损耗要尽量低(损耗就是白白发热、推高电费和散热负担)。之前英伟达 800VDC有详细讨论过原理,有兴趣的大家可以自己去看。下面我简略带过一下。

机柜电源与数据中心电力系统由 Vertiv(营收指引约 135–140 亿美元)、伊顿(主攻固态变压器 SST)、施耐德、台达(已推 800V、660kW 电源架)主导;

电源半导体(VRM/GaN/SiC)方面,硅基 MOSFET 正被氮化镓(GaN,中低压高频,适合服务器 VRM)和碳化硅(SiC,高压段)替代,玩家有 MPS(芯源)、英飞凌(AI 数据中心营收目标约 15 亿欧元)、意法(与英伟达共推 800V-to-6V 方案)、Navitas、罗姆,以及走垂直供电(把电源放到 GPU 正下方)、订单积压环比+70% 的 Vicor;

最上游的电网设备才是真正的物理瓶颈。高压变压器交期已从疫情前的 24–30 个月拉长到约 5 年,开关柜、电池同样紧缺,核心供应商是伊顿、西门子能源、日立能源、GE Vernova,绕开电网的自备电源(燃气轮机、燃料电池、核电/SMR)正成为新趋势。

供电是瓶颈轮动最新的落点。

板块 G:测试(需求从哪来)

芯片是概率性良率的产物,每一颗的好坏都要逐一验证;而且它要在数据中心 7×24 连续跑好几年,所以既要筛掉直接坏的,也要筛掉”早夭”的。测试就是这道质量闸门。

具体怎么测(测试流程)

晶圆测试 / CP(wafer sort):在切割之前,用探针机(prober)把探针卡(probe card,上面有几千根探针)扎到晶圆上每颗 die 的焊盘,连接自动测试设备(ATE)逐 die 测电性,挑出已知良好裸晶(KGD)。对 AI 芯片尤其关键:封装太贵,绝不能把坏 die 或坏 HBM 封进价值数万美元的成品。

终测 / FT(final test):封装完成后,用分选机(handler)把成品逐一送进 ATE,再测一遍功能、性能和高速接口。

老化 / burn-in:在高温高压下跑一段时间,逼出早期失效(可靠性曲线最左端的”婴儿死亡”)。

系统级测试 / SLT:在接近真实系统的环境里运行真实负载和固件,捕捉 ATE 的标准测试图案抓不到的潜在缺陷。AI 大芯片越来越依赖 SLT,但它单颗测试时间长、要更多测试舱,成本结构与传统 ATE 不同。

HBM 还要额外做堆叠级的 KGSD 测试。

为什么测试需求暴涨?

第一,AI 芯片巨大、多 die、接口高速,测试内容多、测试时间长,直接吃测试机产能;

第二,先进封装让”封装前测 + 封装后测”都成为必需,KGD 的价值飙升;

第三,每一个新的定制 ASIC 程序都要开发一套全新的测试程序。博通-谷歌、迈威尔-Meta/微软、AWS Trainium 的定制芯片越多,测试需求就被乘数式放大;

第四,高电流、高速、高可靠性要求,把需求推向更高端的测试机、SLT 和老化。

结果就是 SoC 测试机市场从 2025 年约 69 亿美元增长到 2026 年约 87–95 亿美元,爱德万把产能从 3000 台扩到 5000 台仍售罄。

ATE 是双寡头市场,爱德万(被称为测试界的 ASML)与泰瑞达合计占全球八成以上,AI 拉动下爱德万的 SoC 测试机份额一年内(2025)从 56% 升到 66%、整体份额约 65%,因对 CoWoS 封装暴露更好而跑赢泰瑞达;

探针卡是 FormFactor(美,龙头)、Technoprobe(意)、JEM(日)的寡头;

晶圆探针机由东京电子主导;

封测厂日月光、安靠也在延伸测试服务。

这个环节是典型的AI 越卷、它越赚的双寡头卡点,确定性高、却常被忽视。

板块 H:系统集成与数据中心(薄利组装 + 电力硬约束)

服务器 ODM/整机组装是微笑曲线的最低点:英伟达的整机柜(GB200/GB300)主要由鸿海/工业富联、广达、纬创、英业达,加 Supermicro、戴尔代工,量大利薄。

数据中心与电力层面:亚马逊、微软、谷歌、Meta、甲骨文五家 2026 年资本开支合计约 6600–6900 亿美元、几乎吞掉全部经营性现金流并大举发债,而电力已取代芯片成为头号约束,变压器、开关柜、电网接入(排队 4–7 年)成为真瓶颈,美国 2026 年规划产能中有 30%–50% 可能延期或取消,国际能源署预计全球数据中心用电将在 2030 年翻倍至约 945 TWh。

价值分布与瓶颈总览

把所有环节叠起来,按议价能力分三档:

第一档:独家/双寡头/极度集中(议价力最强、利润最厚)

EUV 光刻机(ASML 唯一)、ABF 膜(味之素唯一)、先进代工(台积电约 92%)、CoWoS 封装(台积电主导)、HBM(三寡头、售罄)、ATE 测试(爱德万+泰瑞达约 80%+)、EML 激光芯片(Lumentum/Coherent)、探针卡(FormFactor 等)、T-glass 玻纤布(日东纺等)。

这一档是真正沉淀超额利润的地方,而且常常是”卖味精、卖玻璃布、卖测试机”的隐形冠军。

第二档·高增长但竞争相对充分(组装/集成,毛利较薄)

光模块组装(中际旭创、新易盛等中系厂商)、液冷系统、机柜电源、连接器/铜缆、被动元件(MLCC)。增长极快,但壁垒相对低,赚的是成长的钱。

第三档·最薄一段

服务器 ODM 整机组装(鸿海、广达等),量大利薄。

瓶颈轮动的清晰路径算力需求 → GPU 短缺 → HBM 售罄 → CoWoS 与载板(ABF/玻纤布)紧张 → 光模块与激光芯片紧缺 →(当下)电力与电网设备

每一次轮动都会催生下一批受益标的。

给投资者的四条启示

第一,沿链优先找独家与双寡头。 价值永远沉淀在无可替代的卡点。

第二,区分卡点高毛利与组装薄毛利。同在 AI 供应链里,上游材料/卡点器件赚垄断利润,光模块组装、液冷、服务器 ODM 赚成长利润,估值逻辑和回撤特性完全不同。

第三,紧盯瓶颈轮动到载板、激光芯片与电力,以及玻璃基板这条暗线。ABF 载板与玻纤布的多年缺口、1.6T 激光芯片的稀缺、电网设备/核电的长周期机会,以及玻璃基板从研发跨入认证带来的格局重排,都值得提前布局。

第四,警惕高集中的两类风险。 一是地缘与单点风险(押注台湾、依赖少数寡头与独家供应商);二是估值与资本开支泡沫(超大厂 capex 吞噬现金流、大举发债,”需求能否兑现”的担忧从未消失)。

特斯拉(TSLA) ROUNDHILL GENERATIVE AI & TECHNOLOGY ETF(CHAT) 通用人工智能 ETF-AGIX(AGIX)

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论