中信证券:国产算力黄金发展期到来 关注三条投资主线

智通财经08:08

智通财经APP获悉,中信证券发布研报称,DeepSeek-V4预览版发布,其参数量相对上一代提升一倍,性能比肩全球闭源模型,达到开源模型SOTA,算力成本继续优化,高性价比百万上下文模型普惠时代到来。DeepSeek-V4在混合注意力机制、mHC、Muon等核心方向创新升级,计算网络比、异构KV Cache、FP4量化感知创新等创新亮点诸多。国产算力与国产模型继续相向而行、深度适配,国产算力黄金发展期到来。DeepSeek-V4延续开源策略,成本大幅下降,并在上下文长度、Agent等能力上进一步提升,全面利好复杂应用场景落地。

投资策略:建议关注以下三条投资主线。

1)AI基础设施:DeepSeek深度适配国产算力,国产算力与国产模型相向而行。

2)AI应用:模型延续开源的策略,输入输出成本大幅下降,并在上下文长度、Agent等能力上进一步提升,利好复杂应用场景及有壁垒的应用公司。

3)模型原厂:DeepSeek新一代模型有望与其他国产模型携手,驱动中国AI加速走向世界,同时模型训推进一步降本,更廉价的tokens驱动全球大模型API调用量整体增加。

中信证券主要观点如下:

DeepSeek-V4预览版:参数量相对上一代提升一倍,百万上下文高性价比模型问世。

4月24日午间,DeepSeek发布新一代模型V4-Preview,包含DeepSeek-V4-Pro和DeepSeek-V4-Flash两款基模,均支持1M上下文窗口。两款模型定位不同:1)V4-Pro定位为高性能专家模型,总参数1.6T、激活参数 49B,其中1.6T参数相对DeepSeek V3.2提升一倍以上;2)V4-Flash定位为高性价比快速模型,总参数 284B、激活参数13B。定价方面,DeepSeek-V4-Pro于4月24日官方定价为输入¥12/MTokens,输出¥24/MTokens,4月25日官宣折扣后降至输入¥3/MTokens,输出¥6/MTokens,折扣后相较全球主流大模型具备极高性价比。据DeepSeek官方微信公众号,目前Pro版模型服务吞吐十分有限,DeepSeek预计下半年升腾950超节点批量上市后,Pro的价格会大幅下调。

模型性能:测评、使用表现比肩全球闭源模型,达到开源模型SOTA。

官方论文从推理、长上下文、Agentic Coding等维度对比了闭源模型和开源模型:知识型任务中,DeepSeek-V4-Pro-Max优于开源模型,缩小与闭源模型的差距;推理任务中,DeepSeek-V4-Pro-Max超过GPT-5.2和Gemini-3.0-Pro,略逊于GPT-5.4和Gemini 3.1-Pro,DeepSeek-V4-Flash-Max与GPT-5.2、Gemini-3.0-Pro相当;Agent任务中,DeepSeek-V4-Pro-Max与领先的开源模型相当,略逊于前沿闭源模型,内部评估中,优于Claude Sonnet 4.5,接近Opus 4.5的水平。产业实测中,长上下文能力走向实用及其稳定性获得好评,编程能力进步明显,在Arena.ai代码竞技场中,排名开源模型第3位。

模型创新:混合注意力机制、mHC、Muon等核心方向创新升级。

1)创新采用CSA+HCA混合注意力架构,压缩自注意力层计算开支及缓存占用。DeepSeek V4 Preview延续历代模型的自注意力层(Attention)降本提效思路,模型在Attention层中交错使用压缩稀疏注意力(CSA)和重度压缩注意力(HCA)结构,将多个token的KV Cache压缩为一个KV条目,使模型保证对超长上下文信息理解的基础上,极致压缩计算开支及缓存占用。据DeepSeek官网论文披露,在100万Token上下文场景下,DeepSeek-V4-Pro相较DeepSeek-V3.2仅需27%的单Token推理FLOPs和10%的KV Cache;DeepSeek-V4-Flash进一步降至10%的单Token推理FLOPs和7%的KV Cache。

2)mHC更新残差连接范式,沿用V3后训练机制引入在线混合蒸馏策略。经典HC(Hyper-Connections)在模型层次加深的过程中容易出现梯度消失、梯度爆炸等问题,限制模型参数量扩大。DeepSeek V4提出流形约束超连接(mHC)结构,保留模型各层之间多路径信息传递的基础上,限制每一层对信息的放大/缩小幅度,增强在更深层结构和更长上下文训练中模型的稳定性。DeepSeek V4的后训练环节在沿用V3.2框架的基础上引入在线混合蒸馏策略(OPD),先针对数学、代码、Agent、指令遵循等方向训练出多个领域专家模型,再将其通过蒸馏方式合并到一个统一学生模型中。DeepSeek V4通过多项训练机制方面的算法创新,进一步提升了超高参数规模和超长上下文模型训练过程的稳定性。

算力优化:计算网络比、异构KV Cache、FP4量化感知创新等创新亮点诸多。

1)计算与通信存在最优配比,有利于国产算力定向优化。DeepSeek V4 提出的计算通信比理论,是 MoE 大模型系统优化的重要突破,改变了行业内 “MoE 效率必须依赖极致高带宽” 的惯性认知。DeepSeek V4 设计了细粒度波次调度的专家并行方案,实现了通信与计算的全量重叠,实测最高带来 1.96 倍的性能提升。基于新的EP并行方案实验结果和理论推导,DeepSeek得到了计算和通信的最优配比,DeepSeek指出,MoE 专家并行的核心瓶颈并非带宽绝对值,而是算力与带宽的配比是否满足平衡阈值。团队通过量化推导,给出了 MoE 架构的黄金平衡点:6144 FLOPs/Byte,即每 1GB/s 的互联带宽,足以完全支撑 6.1 TFLOP/s 算力对应的通信需求。当带宽满足这一阈值后,继续堆叠带宽将会进一步占用芯片面积,压缩芯片负责计算部分的面积,可能带来边际收益递减。这一理论为国产硬件崛起提供理论支撑,国产算力芯片与超节点有望从中受益。

2)创新性优化KV Cache,SSD重要性提升、端侧部署潜在受益。DeepSeek V4把KV Cache拆成两类异构压缩,是创新性工程突破,V4-Pro 百万级上下文窗口的KV占用仅为V3.2的10%、V4-Flash则仅为上一代的7%,是首个基于部分KV Cache在SSD Off-load所训练出来的开源frontier model。基于这一异构分级机制,模型把定稿历史块全量搬到Disk,通过冷热数据高效解耦,针对热的SWA窗口数据,论文给出三档策略,按场景在写入压力与重算成本间灵活权衡。在云端,V4的方案通过把共享前缀一次压缩、跳过重复预填充等方式,提升了SSD在数据中心的重要性;在边端,有效降低了边端模型的部署成本和门槛,因为以几B到小几十B参数的边端模型为例,在Q4量化的情况下,通常权重只有几到十几GB,但1M上下文的稠密模型的Kv Cache可能数倍于权重。

国产算力:国产模型继续相向而行。

在DeepSeek模型发布当天,国产芯片纷纷宣布day0适配,国产模型的发展将进一步助推国产算力发展,国产算力与模型继续相向而行。

1)V4 强化了国产算力的确定性。过去市场担心国产 AI 芯片使用场景有限,当前V4 的同步适配说明国产芯片正在进入主流开源大模型生态。

2)V4 改变了国产算力的需求结构。不只是关注训练卡,而是要更重视推理卡、超节点、互联、液冷和软件栈;未来订单的核心不是“谁单卡算力最高”,而是“谁能以最低成本稳定跑DeepSeek此类大模型”。

3)V4 提高了国产算力商业化天花板。当 1M 上下文、Agent、Coding 进入低成本可用阶段,企业级 AI 应用会从试点走向规模部署,国产算力的需求会从政策驱动转向真实业务驱动。

应用影响:DeepSeek V4延续开源的策略,输入输出成本大幅下降,并在上下文长度、Agent等能力上进一步提升,利好复杂应用场景落地。

DeepSeek通过高性价比的推理成本降低应用门槛,未来将创造新的商业模式,在此基础上,具备行业know-how属性、深层嵌入企业记录/交易/支付等功能的软件公司,在垂直细分场景具备私域数据壁垒的专业软件公司,受行业强监管、需要交付结果的软件公司等,有望充分受益于AI赋能带来价值增长。

风险因素:

AI核心技术发展、应用拓展不及预期,算力降本不及预期,AI被不当使用造成严重社会影响,数据安全风险,信息安全风险,行业竞争加剧。

免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法