AI 数据中心解析

AI 数据中心里,真正越来越贵、越来越耗电的,不只是算力本身,而是“数据怎么在芯片、交换机、光模块之间高速移动”。

1. 以前的数据中心交换机怎么变快?

过去十年,以太网交换机的总容量从 0.64 Tbps 提升到 25.6 Tbps,主要靠的是:

  • 插很多个 400G 光模块

  • 或者插很多个 800G 光模块

也就是传统的 可插拔光模块

你可以理解为:
交换机像一个大型交通枢纽,光模块就是高速出入口。以前要提升吞吐量,就多加、更换更高速的出入口。

2. 现在为什么遇到瓶颈?

下一代光模块要做到:1.6T,3.2T,单通道 100G / 200G

速度越来越快之后,问题出在 PCB 板上的铜线走线。传统架构下,交换芯片和光模块之间不是紧贴在一起的,中间要经过几十毫米甚至一百多毫米的铜线。速度低的时候还可以接受,但速度越高,铜线就越像“漏水的水管”:信号会衰减,噪声会增加,误码率会上升,信号完整性变差所以,高速信号还没到光模块,质量就已经变差了。

3. 为什么 Retimer 和 DSP 会带来功耗问题?

为了补救信号衰减,传统光模块里要加入:

  • Retimer:重新整理、恢复高速电信号

  • DSP:数字信号处理芯片,用算法补偿信号失真

这就像信号走得太远、太模糊了,需要中间加一个“修图软件”或者“翻译器”来重新修复。

问题是:修复信号本身也要耗电,而且耗电很高。一个带 DSP 的 400G 光模块大约功耗 30W。如果一个机架里有 48 个:

30W × 48 = 1440W也就是说,光模块本身就可能吃掉 1.4kW 的电。更夸张的是,在一些系统里,光互连功耗可能占设备总功耗 40% 以上。未来甚至可能出现:

I/O 传输耗电 > 交换芯片核心耗电

这就是所谓的:数据移动比计算本身还贵。

4. 为什么说“数据中心 60% 能源消耗在数据移动上”?

AI 训练和推理不是一个芯片单独完成的,而是大量 GPU、交换机、存储、服务器之间不断传数据。

所以能源不只花在 GPU 做矩阵计算上,还花在:GPU 之间通信,服务器之间通信,交换机转发数据,光模块电光转换,信号补偿,数据搬运

AI 数据中心的能耗瓶颈,正在从“算力芯片本身”转向“数据传输链路”。

5. 为什么会出现 CPO、NPO、XPO 三条路线?

因为传统可插拔光模块越来越难支撑未来高带宽、低功耗需求,所以产业开始寻找新的光互连架构。

这三条路线可以理解成三种解决方案:


6. CPO 是什么?

CPO = Co-Packaged Optics,共同封装光学

意思是:
把光引擎和交换芯片封装在一起,尽量贴近 Switch ASIC。

以前是:

交换芯片 → PCB 铜线 → 光模块

CPO 是:

交换芯片 ≈ 光引擎贴在旁边

这样可以大幅缩短信号传输距离,减少铜线损耗,也就减少 Retimer / DSP 的功耗。

它的优点是:性能最高,功耗最低,带宽密度最高,适合未来超大规模 AI 数据中心

但缺点也明显:维修困难,封装复杂,成本高,一旦光模块坏了,可能不再是简单拔下来换一个,所以 CPO 是最激进、最先进,但也最难落地的一条路线。

7. NPO 是什么?

NPO = Near-Packaged Optics,近封装光学

意思是:
光引擎不直接和芯片封装在一起,但放得非常近。它介于传统可插拔光模块和 CPO 之间。

你可以理解为:

CPO 是“光模块搬进芯片封装里”;
NPO 是“光模块搬到芯片旁边,但还没有完全合体”。

它的优势是:比传统可插拔方案功耗更低,比 CPO 更容易维护,架构变化没有 CPO 那么激进,是一种折中路线

所以 NPO 的核心是:在性能和可维护性之间找平衡。


8. XPO 是什么?

XPO = eXtra-dense Pluggable Optics,超高密度可插拔光学

它仍然保留传统“可插拔”思路,但把密度做得更高,并且可能加入液冷等散热设计。

它的逻辑是:

不彻底推翻现有架构,而是在现有光模块基础上继续升级。

XPO 的优势是:兼容现有数据中心基础设施,维护方便,换模块容易,部署成本相对低,产业链接受度更高

但缺点是:本质上仍然受 PCB 铜线损耗限制,功耗优化不如 CPO,长期天花板可能更低所以 XPO 是最保守、最现实、最容易短期落地的一条路线。

AI 数据中心进入高带宽时代后,传统可插拔光模块架构开始接近物理极限。

问题主要不是“能不能做出更高速光模块”,而是:信号从交换芯片传到光模块的路径太长,铜线损耗太大,需要 DSP / Retimer 补偿,补偿带来高功耗,高功耗带来散热和机架功率密度问题

所以产业出现三条技术路线:

路线

核心思路

优缺点

CPO

光引擎和交换芯片共同封装

性能最高、功耗最低

难维护、成本高、封装复杂

NPO

光引擎靠近芯片封装

性能和维护折中

仍有一定架构复杂度

XPO

升级传统可插拔光模块

兼容性好、部署快、维护方便

功耗和性能天花板较低

一句话总结:

CPO、NPO、XPO 本质上是为了解决 AI 数据中心“数据传输太耗电、太热、太贵”的问题,只是三者在性能、成本和维护便利性之间选择了不同的平衡点。

CPO、NPO、XPO 对应的美股投资主线,本质不是单纯买光模块,而是围绕 AI 数据中心“数据移动降功耗”展开:AVGO、NVDA、ANET、MRVL 代表架构与芯片平台;COHR、LITE、AAOI、FN 代表光模块与光器件弹性;CRDO、ALAB、MTSI、SMTC 代表 800G/1.6T 过渡阶段的信号完整性和低功耗互连机会。

# 芯片板块狂飙!英特尔、AMD…还能投吗?

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论2

  • 推荐
  • 最新
  • BartonBecky
    ·04-27 22:03
    CPO这个路线确实值得关注
    回复
    举报
  • Lydia758
    ·04-27 23:50
    回复
    举报