英伟达推出AI 推理上下文存储平台ICMS。随用户多轮会话与Agent 持续运行带来的KVCache 不断累积,系统对可长期留存并按需回填的分层KVCache 形成刚性需求,推动上下文从HBM 外溢至DRAM、SSD 等分层介质承接。为此,NVIDIA 推出上下文记忆存储架构ICMS,面向Agent 与多轮推理场景提供“长期上下文记忆层”,一方面承载更大规模KVCache,另一方面以低延迟将历史...
网页链接英伟达推出AI 推理上下文存储平台ICMS。随用户多轮会话与Agent 持续运行带来的KVCache 不断累积,系统对可长期留存并按需回填的分层KVCache 形成刚性需求,推动上下文从HBM 外溢至DRAM、SSD 等分层介质承接。为此,NVIDIA 推出上下文记忆存储架构ICMS,面向Agent 与多轮推理场景提供“长期上下文记忆层”,一方面承载更大规模KVCache,另一方面以低延迟将历史...
网页链接
精彩评论