🔥被忽视的结构性变化:Agentic AI 把“存储”推到了算力之上
很多人还在用“算力军备竞赛”的视角看 #AI,但真正发生的,是优先级在重排。
Agentic AI 出现之后,系统不再只是“算得更快”,而是开始要求“记得更多、记得更久、调得更灵活”。
这不是升级,这是范式在移动。
第一层变化,是硬件角色的重写。
过去几十年,计算的核心是 CPU,然后是 GPU 加速。
现在结构已经变成:
① 记忆层(HBM / DRAM / NAND)
② 并行计算层(GPU / ASIC)
③ 协调层(CPU)
CPU 不再承担主要计算逻辑,而是在做调度、编排和系统控制。
这个顺序变化,意味着瓶颈已经从“算不动”,变成“搬不动、存不下”。
第二层变化,是“智能”的定义开始被还原到最底层。
如果从第一性原理看,人类对智能的判断始终只有两件事:
记忆能力 + 计算能力
也就是“记得住多少”以及“处理得多快”。
Agentic AI 正在把这两件事工程化。
但当模型规模已经足够大之后,计算能力的提升开始边际递减,而“记忆能力”反而成为新的上限约束。
第三层,是市场已经部分理解但还没完全定价的部分:HBM。
在 LLM 推理过程中,decode 阶段是典型的 memory-bound 任务。
每生成一个 token,都需要读取 KV cache,本质上是在不断做“数据搬运”。
带宽不够,GPU 就会出现等待,算力被闲置。
这也是为什么 HBM 的带宽和容量在每一代 GPU 中都在持续提升。
但这只是“表层逻辑”。
真正被低估的,是第四层变化。
所谓“1M context”,很多人以为是通过 GPU 集群拼出来的。
但现实是,它并不是在推理集群中完成的。
它真正发生的地方,是运行 Agentic 系统的传统服务器。
也就是 CPU + 大规模 DRAM。
这些服务器在做的事情包括:
加载用户的长期记忆和短期状态
加载 system prompt
加载各种 tool、skill、sub-agent 的说明
在上下文过大时进行压缩与重组
这一整套操作,本质上是“记忆管理系统”。
而这些工作,几乎全部发生在 DRAM 中。
第五层,是和过去互联网的本质差异。
在传统互联网和移动互联网时代,系统几乎不维护完整用户上下文。
只有搜索、推荐、广告等少数场景才使用用户画像,而且数据量极其有限。
相比之下,Agentic 系统需要持续维护用户状态,这使得“每个用户对应的内存占用”出现数量级跃迁。
第六层,是供应链已经开始给出的信号。
服务器的 CPU : DRAM 配比,正在从过去的约 1:4,向 1:16 甚至更高演进。
这不是简单的扩容,而是架构被重新设计。
更关键的是,在 Agentic 模式下:
单颗 CPU 能服务的用户数显著下降。
也就是说:
为了支撑同样规模的用户
需要更多 CPU
以及指数级更多的 DRAM
当整个 IT 架构全面向 Agentic 转型时:
CPU 数量可能增长数倍到十几倍
DRAM 总量可能增长几十倍到上百倍
这才是“需求曲线”的真正斜率。
第七层,是时间维度的错配。
目前:
Agentic AI 渗透率仍然很低
单用户使用深度仍然很浅
也就是说,我们看到的只是需求曲线的起点。
如果这个方向成立,那么未来几年,存储需求更像是“持续放量”,而不是传统意义上的周期波动。
这也是为什么用传统半导体周期去理解这轮变化,可能会系统性低估。
最后的核心结论很简单:
Agentic AI 不是一轮“算力升级”,而是一轮“存储 + 并行计算”的范式迁移。
当软件形态发生变化,硬件需求一定会重写。
问题不再是“存储会不会周期”,而是——这一轮到底什么时候才算真正进入周期阶段。
你更倾向于认为这是一次长期结构性机会,还是仍然会回到传统半导体周期的节奏?
精彩评论