编译 | 陈骏达编辑 | Panken智东西2月18日报道,今天下午,DeepSeek团队发布一篇新论文,介绍了一种改进的稀疏注意力机制NSA,可用于超快速的长上下文训练与推理。NSA以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。让人眼前一亮的是,DeepSeek创始人兼CEO梁文锋这次出现在了合著名单之中,在作者排名...
网页链接编译 | 陈骏达编辑 | Panken智东西2月18日报道,今天下午,DeepSeek团队发布一篇新论文,介绍了一种改进的稀疏注意力机制NSA,可用于超快速的长上下文训练与推理。NSA以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。让人眼前一亮的是,DeepSeek创始人兼CEO梁文锋这次出现在了合著名单之中,在作者排名...
网页链接
精彩评论