苹果哭了. HBM之后,推理开始吞噬NAND

当单卡HBM装不下百万token的KV Cache,企业SSD第一次成为GPU内存层的结构件

2026.06.19 · 技术前沿

[ STORAGE ]训练堆HBM,推理向下分层。NAND第一次拿到一个不依赖手机换机的AI锚——但成色押在每GPU配置TB数与缓存命中经济上。

HBM承载训练,推理向下分层。当单卡HBM装不下百万token的KV Cache,企业SSD第一次成为GPU内存层的结构件

账本变了。70B级模型每百万token约生成 293GB KV Cache,是模型权重的两倍多,单卡Rubin HBM塞不下——分层成了工程刚需。

把约70%冷KV下沉SSD,每百万token内存账单从约2,930美元降到约590美元,省约八成;HBM越涨,省得越多。

每百万token内存账单:三层下沉USD · K Research测算
$2,930
全HBM
训练期
−$1,230
下沉DRAM
−70%热层
−$1,110
下沉SSD
冷KV
$589
三层CMX
推理期
QLC SSD每GB比HBM便宜约50–70×;命中率低的冷KV用容量换延迟,单位账单塌缩。

HBM越涨省得越多。NVIDIA在CES'26发布 CMX,用BlueField-4把以太网闪存做成池级KV缓存层,官方称吞吐与能效各 5倍

市场早已为KV复用定价:Anthropic缓存读取只收输入价 10%(省90%)。DeepSeek把盘上缓存首token时延从13秒压到0.5秒 —— Anthropic / DeepSeek 文档 2026.05

钱在跟进:Micron上季数据中心NAND营收环比翻倍,点名"vector database与KV cache offload";Kioxia经营利润率 74%、上市以来首次分红 —— Micron FQ2'26 / Kioxia Investor Day 2026.06.02

企业NAND缺口:2027年由负转正缺口率% · 基准情景
+10%0−6%−4±0+6+102026202720282029
AI占NAND总需求:2025年8% → 2027年22% → 2029年38%。新增产能要等2027年底以后。

反方不弱:DeepSeek V4把KV体积压到GQA的约 2%,更大DRAM也在抢。但压缩降单token体积,却放大可服务并发与上下文——杰文斯悖论,总bit方向不改。完整版已上传。

但这是条件性重定价。

卡位在控制器固件与GPU直连协议,而非裸NAND;裸晶圆最先被 2028–29 新产能稀释。低端消费NAND未必同步受益,反被挤出涨价。

NAND估值锚,正从手机出货切换为"每GPU配置TB数 × 每token存储流量"。

一切都是因为推理的崛起训练,一次性推理次次性。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论