国产AI前沿阵地正迎来突破性进展。 近日,继scaleX万卡超集群在国家超算互联网核心节点规模化落地,光合组织紧锣密鼓的在当地召开“国产万卡算力赋能大模型发展研讨会暨联合攻关启动仪式”。 没错,国产万卡超集群真正要大规模“用”起来了。而且据说落地目标直指AI头部领域——万亿参数大模型。 这两年,随着AI大模型参数规模大幅跃升,算力基础设施建设也在同步跟注加码。 尽管集群式算力体系相对复杂,而且AI用户对多元化算力需求迫切,供给侧厂商仍是通过开放的架构、统一的标准,走出了一条高效通用的“大算力普惠”之路。前两天爆火的scaleX万卡超集群就是一个样板。 当然,光说不练不行,万亿参数大模型是万超计算集群最好的试金石。 从技术应用层面来看,当数据量足够大时,AI大模型的参数越多,模型精度也越好。同时,参数量增加也必然造成计算量增加。 当AI大模型达到千亿、万亿级参数,训练和推理过程中就需要大量矩阵运算和浮点计算。对于高内存带宽与容量、低延迟与高并发处理能力等技术挑战非常大。 尤为关键的一点是,很多大模型玩家在算力选型中非常慎重。因为很多智算中心之间存在技术路线差异,甚至部分技术架构难以兼容主流生态,异构迁移过程中往往步步雷区。 某国产大模型技术负责人指出,由于芯片硬件结构差异和浮点计算的不确定性,叠加大模型参数量大导致精度误差被隐藏的现象,因此技术人员往往需要较长的时间来验证算子正确性和模型的收敛性。 另外,解决效果问题后,还会遇到性能损失的问题。 “因为不同计算精度和shape场景下的算子最优实现并不一致,一些国产算力的泛化能力还不够强,所以导致模型移植后的开箱性能往往无法达到理论算力上限,需要进一步开展深入的性能优化工作等。”上述人士表示。 毋庸置疑,“国产万卡超集群”拥抱“万亿参数大模型”是一个历史性机遇,但在如何赋能大模型实际应用场景上,依然需要在供需两端形成共识。 光合