金磊 白交 发自 凹非寺量子位 | 公众号 QbitAI一场围绕大模型自研和创新的讨论,这两天在技术圈里炸了锅。起初,前阿里技术VP贾扬清,盆友圈爆料吐槽:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……一石激起千层浪,更晚一些时候,“大厂”被与零一万物关联,其刚发布的新模型Yi-34B被指与LLaMA架构如出一辙。零一万物很快给出了说明和回应。但热议并未就此平息,甚至围绕大模型原创、自研的标准,开始被更进一步争论。而初步激辩中指向的结论——冷峻又真实:大模型的架构创新,可能早就死了。好比烤鸭这道菜的菜谱公开之后,核心方法和步奏,都已经被固定了。所以如果的大模型研发,都无法再在架构层面另起炉灶……那自研国产大模型,研它还能有啥用?争议就在近日,贾扬清的吐槽,迅速火上了海外技术社区热搜。并且很快,零一万物就被关联起来。因为就在Yi-34B首次推出后,迅速横扫了各项中英文评测榜单,在英文领域也超越了Llama-2 70B和Falcon-180B等一众大尺寸大模型……一时风头无两、木秀于林。贾扬清爆料之后,一封Hugging Face的邮件也对外曝光了,邮件核心内容,就是Yi模型与已经开源的LLaMA架构上存在重合,虽然张量命名不同,但按照开源社区的规则和规范,需要作出调整。这也成为外界对于零一万物和Yi-34B模型自研性的质疑所在。零一万物很快给出了说明和回应,核心有两点:第一,Yi模型确实沿用了公开的架构,但和LLaMA一样,都基于的是GPT成熟结构。第二,大模型的研发中,模型结构只是模型训练的一部分,还有包括数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标在内的核心技术挑战和能力……在大量训练实验过程中,由于实验执行需求对代码做了更名,所以处于尊重开