等也是一种策略 如何等在哪里等
04-30 13:52

🔥被忽视的结构性变化:Agentic AI 把“存储”推到了算力之上

很多人还在用“算力军备竞赛”的视角看 #AI,但真正发生的,是优先级在重排。

Agentic AI 出现之后,系统不再只是“算得更快”,而是开始要求“记得更多、记得更久、调得更灵活”。

这不是升级,这是范式在移动。

第一层变化,是硬件角色的重写。

过去几十年,计算的核心是 CPU,然后是 GPU 加速。

现在结构已经变成:

① 记忆层(HBM / DRAM / NAND)

② 并行计算层(GPU / ASIC)

③ 协调层(CPU)

CPU 不再承担主要计算逻辑,而是在做调度、编排和系统控制。

这个顺序变化,意味着瓶颈已经从“算不动”,变成“搬不动、存不下”。

第二层变化,是“智能”的定义开始被还原到最底层。

如果从第一性原理看,人类对智能的判断始终只有两件事:

记忆能力 + 计算能力

也就是“记得住多少”以及“处理得多快”。

Agentic AI 正在把这两件事工程化。

但当模型规模已经足够大之后,计算能力的提升开始边际递减,而“记忆能力”反而成为新的上限约束。

第三层,是市场已经部分理解但还没完全定价的部分:HBM。

在 LLM 推理过程中,decode 阶段是典型的 memory-bound 任务。

每生成一个 token,都需要读取 KV cache,本质上是在不断做“数据搬运”。

带宽不够,GPU 就会出现等待,算力被闲置。

这也是为什么 HBM 的带宽和容量在每一代 GPU 中都在持续提升。

但这只是“表层逻辑”。

真正被低估的,是第四层变化。

所谓“1M context”,很多人以为是通过 GPU 集群拼出来的。

但现实是,它并不是在推理集群中完成的。

它真正发生的地方,是运行 Agentic 系统的传统服务器。

也就是 CPU + 大规模 DRAM。

这些服务器在做的事情包括:

加载用户的长期记忆和短期状态

加载 system prompt

加载各种 tool、skill、sub-agent 的说明

在上下文过大时进行压缩与重组

这一整套操作,本质上是“记忆管理系统”。

而这些工作,几乎全部发生在 DRAM 中。

第五层,是和过去互联网的本质差异。

在传统互联网和移动互联网时代,系统几乎不维护完整用户上下文。

只有搜索、推荐、广告等少数场景才使用用户画像,而且数据量极其有限。

相比之下,Agentic 系统需要持续维护用户状态,这使得“每个用户对应的内存占用”出现数量级跃迁。

第六层,是供应链已经开始给出的信号。

服务器的 CPU : DRAM 配比,正在从过去的约 1:4,向 1:16 甚至更高演进。

这不是简单的扩容,而是架构被重新设计。

更关键的是,在 Agentic 模式下:

单颗 CPU 能服务的用户数显著下降。

也就是说:

为了支撑同样规模的用户

需要更多 CPU

以及指数级更多的 DRAM

当整个 IT 架构全面向 Agentic 转型时:

CPU 数量可能增长数倍到十几倍

DRAM 总量可能增长几十倍到上百倍

这才是“需求曲线”的真正斜率。

第七层,是时间维度的错配。

目前:

Agentic AI 渗透率仍然很低

单用户使用深度仍然很浅

也就是说,我们看到的只是需求曲线的起点。

如果这个方向成立,那么未来几年,存储需求更像是“持续放量”,而不是传统意义上的周期波动。

这也是为什么用传统半导体周期去理解这轮变化,可能会系统性低估。

最后的核心结论很简单:

Agentic AI 不是一轮“算力升级”,而是一轮“存储 + 并行计算”的范式迁移。

当软件形态发生变化,硬件需求一定会重写。

问题不再是“存储会不会周期”,而是——这一轮到底什么时候才算真正进入周期阶段。

你更倾向于认为这是一次长期结构性机会,还是仍然会回到传统半导体周期的节奏?

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法