本文将系统回答一系列核心问题,从价格、性能、架构、生态到产业链与战略动因,深度分析 TPU 与 GPU 的最新差距与潜在走向。
过去数月,Google 试图将自研 AI 芯片 TPU(Tensor Processing Unit)出售或租赁给非 Google Cloud 客户,这一动作不仅撼动行业,也引发了英伟达的密切关注。
值得注意的是,全球两款最先进的大模型——Google Gemini 与 Anthropic Claude——均部分或完全由 TPU 训练完成,而非英伟达 GPU。这一现实正在改变 AI 计算市场的竞争格局。
越来越多的科技巨头也开始重新评估 TPU 的价值,其中包括英伟达的大客户 Meta。
虽然英伟达依旧在性能与生态上占据压倒性优势,但 Google 正在以更开放的策略推动 TPU 进入更多数据中心,与英伟达正面竞争的趋势越发明显。
Google行情走势
一、TPU 与 GPU 的云端性价比:取决于生态成本与迁移代价
两者直接对比价格并不简单,原因在于软件生态的迁移成本:
1、 GPU 生态完整,开发者使用 Cuda 上手最快
2、 TPU 更便宜,但前提是开发者愿意为其重写部分代码
3、 老练的科技巨头如 Apple、Anthropic、Meta 对 TPU 的软件适配难度更低
前 Google 与英伟达工程师均表示,在特定类型的大规模训练任务下,TPU 在成本效率上可能优于 GPU;尤其是训练 Google 自家 Gemini 时,TPU 的成本优势尤为明显。
二、黄仁勋曾说“即使对手芯片不要钱也没人会买”?事实没那么简单
即便英伟达技术领先,它仍然面临一个关键限制:台积电产能不可能无限度倾斜给单一客户。
因此市场上会有一部分 “GPU 需求缺口”,这些需求自然会寻找其他可替代芯片,例如 TPU、AWS Trainium、AMD MI300 等。也就是说,即便不是性能或价格因素,供应链瓶颈也会推高对竞争芯片的需求。
三、性能差距:最先进的 TPU 与最先进 GPU 相比究竟差多少?
行业人士给出的对比数据显示:
1、 Google 最新 TPU Ironwood 的单芯片算力约为英伟达 Blackwell 的一半(以 FLOPS 衡量)
2、 Google 可以在数据中心内部把数千颗 TPU 串联成一个大型 Pod
3、 英伟达单连接上限是 256 颗 GPU(可用额外网络线缆扩展)
单芯片性能上,GPU 明显更强;但 TPU 在规模化训练大模型时,能通过大规模 Pod 获得效率优势。
四、TPU 与 GPU 的架构差异:谁更适合哪类模型?
GPU 是通用计算加速器,能胜任各类机器学习与图形渲染;TPU 更像是“为矩阵计算而生”的专用加速器。
TPU 的 systolic array(脉动阵列)结构,使其在矩阵乘法任务上效率极高,且能减少大量访存时间,从而降低能耗。
但缺点同样明显:只能在部分软件框架下发挥优势,例如 TensorFlow,而主流研究团队依然以 PyTorch 为主。
因此:
1、 训练关键的矩阵密集型任务,TPU 成本更好
2、 若涉及大量自定义算子、复杂图像增强流程,GPU 往往更灵活、更高效
对图像、视频模型而言,TPU 在卷积类计算上有优势,但 GPU 适合需要频繁试验复杂预处理和图像变换的研究场景。
五、谁在使用 TPU?
1、 Apple 长期用 TPU 训练最大规模语言模型
2、 Midjourney 2023 年曾公开表示使用 TPU
3、 Meta 正在认真评估 TPU,尤其用于下一代模型训练
4、 Cohere 曾试用 TPU,因早期版本出现问题而改用 GPU
总体来看,科技巨头更愿意接触 TPU,而中小企业更倾向 GPU,因为后者生态完整、开发门槛低。
六、Google 若要真正对标英伟达,需要改造整个供应链
若 Google 想把 TPU 大规模卖到其他企业数据中心,就必须复制英伟达的商业模式,包括:
1、 确保足够产能
2、 布局全球销售渠道
3、 与服务器厂商合作做整机交付
4、 组建大量的客户支持与软件工程团队
简单说:TPU 想像 GPU 一样卖给全球,需要的是 Google 从研发型公司变成“半导体体系公司”。
七、TPU 与 GPU 的制造成本:究竟谁更贵?
台积电负责为 Google 与英伟达制造芯片:
1、 TPU Ironwood 使用比 Blackwell 更先进的工艺
2、 但 TPU 面积更小,每片晶圆可切割更多芯片,因此抵消部分成本
3、 两者均需要昂贵的高带宽内存(HBM)
英伟达销售 GPU 的毛利率约为 63%,而 Google Cloud 整体毛利率只有 24% 左右,说明 Google 并未像英伟达那样把 TPU 当成“高毛利硬件生意”去卖。
八、Google TPU 的生产规模:未来两年要翻倍
摩根士丹利预测:
1、 2026 年生产超过 300 万颗 TPU
2、 2027 年提升至 500 万颗以上
3、 Google 内部甚至向部分客户透露可能目标更高,但能否获得台积电产能尚不确定
目前英伟达每年的 GPU 产量约为 Google TPU 的三倍。
九、Broadcom 在 TPU 产业链的角色
Broadcom 是 TPU 项目的关键合作伙伴,负责:
1、 芯片的物理设计与封装
2、 与台积电的制造协调
3、 提供高速 SerDes(串行器/解串器)知识产权,用于 TPU 间高速通信
这项合作规模至少价值 80 亿美元。
十、如果 Google 将 TPU 租赁到第三方数据中心,会发生什么?
若 TPU 部署在非 Google Cloud 的数据中心:
1、 这些数据中心必须按照 Google 的技术标准设计,否则无法获得成本优势
2、 Google 可能会在售价中加入额外溢价,以弥补失去的云服务收入(例如存储、数据库等)
这也是 Google 迟迟不愿开放 TPU 的原因之一:对它来说,TPU 更像是拉动 Google Cloud 的 “绑定武器”。
十一、Google 为什么执意开放 TPU?
核心原因包括:
1、 金融、科技企业希望在自己的数据中心内部署 TPU(非 Google Cloud)
2、 Google 已向多家云厂商提议合作代管 TPU
3、 即便客户最终不用 TPU,也能借此压价英伟达
4、 TPU 更普及有助推广 Gemini 模型,因为 Gemini 原生针对 TPU 优化
更深层的原因是:英伟达生态过于强大,Google 必须扩大 TPU 的使用场景才能让自家模型保持竞争力。
十二、PyTorch XLA、JAX 等新工具是否缩小了 TPU 与 GPU 的软件鸿沟?
结论是不明显,至少在短期内如此。
Google 正努力推动 TPU 的软件易用性,但与 Cuda 上百万人规模的开发者生态相比,差距仍然巨大。
TPU 想真正走向通用化,还需要几年时间。
精彩评论