“大空头”原型迈克尔·伯里(Michael Burry),这位因预测2008年住房危机而闻名的投资者,最近在社交媒体上掀起了批评AI基础设施建设的热潮。图片他的最新论点是:云服务提供商(CSP)如AWS、Azure和Google Cloud在财务报表中将GPU折旧期均匀摊销到6年,但实际使用寿命只有2-3年,这导致利润虚高,暗示AI基础设施泡沫类似于互联网时代的过度光纤建设。如果喜欢我们的内容,可以加星标,避免错过推送。添加微信Charlotte-YN21,可以加入聊天群一起观察市场。虽然伯里的怀疑很有价值,提醒我们过度炒作的风险,但他的观点实际上过于简化了一个复杂的生态系统。基于Meta的Llama 3报告、行业数据和CSP披露,实际上GPU寿命比2-3年更长且更复杂,潜在的AI泡沫更可能出现在应用端而非基础设施。2-3年寿命的观点来自于哪?论据似乎站不住脚伯里关于实际使用寿命的断言可以追溯到Meta的2024年Llama 3技术报告,该报告详细描述了使用16,384个H100 GPU在54天内训练405B模型的过程。报告记录了466次中断(其中419次为非计划故障),平均每3小时发生一次,年化故障率(AFR)约为9%。保守估计,这意味着3年累计故障率约为27%——暗示超过四分之一的GPU在3年内可能失效。这些数据对于高负载AI训练是可信的,在这种场景下,同步任务使系统变得脆弱:单个GPU故障可能导致整个任务停止。这与加密货币挖矿类似,高利用率GPU往往在3年内出现显著报废率。然而,这并非全貌。Burry引用的故障数据更多适用于峰值负载场景而非平均使用,广泛的行业数据表明寿命更长。Nvidia的H100规格估计平均无故障时间超过5年。Gartner的2024年AI基础设施报告基于多家CSP匿名数据,平均寿命为4-6年。微软的2024年10-K报告将服务器折旧期定为4-5年