英伟达在开源模型上玩的很激进:“最高效的开放模型家族”Nemotron 3,混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底:不仅开放模型权重,还要把超过10万亿token的训练数据、预训练和后训练软件、训练配方全部公开。与其他开源模型相比性能有竞争力,且速度快1.5-3.3倍。把Mamba和Transformer混着用Nemotron 3在架构层面...
网页链接英伟达在开源模型上玩的很激进:“最高效的开放模型家族”Nemotron 3,混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底:不仅开放模型权重,还要把超过10万亿token的训练数据、预训练和后训练软件、训练配方全部公开。与其他开源模型相比性能有竞争力,且速度快1.5-3.3倍。把Mamba和Transformer混着用Nemotron 3在架构层面...
网页链接
精彩评论