马斯克 Terafab 太空算力、英伟达重拾 CPU,与 Fusion Fund 张璐聊 AI 算力新趋势 | 晚点播客

晚点LatePost
04-12

“马斯克不仅要成为太空经济参与者,也想成为规则制定方。”

文丨实习生裴雨桐

访谈丨程曼祺

马斯克刚刚在 3 月底发布了一个大计划——Terafab,要联合特斯拉、SpaceX 和 xAI,自建史上最大芯片厂,掌握从设计到制造到部署应用的全栈产能。其中最科幻的部分,是马斯克希望把 Terafab 80% 的算力部署到太空,建太空数据中心。

Terafab 的目标年产耗电量是惊人的 1TW,是目前全球 AI 算力年耗电量(40~50 GW,1 GW 是 100 万度电,即 100 万 kW)的约 20 倍。

《晚点聊》本期节目就邀请了 Fusion Fund 的创始合伙人张璐,她是 SpaceX 的投资人。从马斯克的雄心壮志出发,我们与张璐聊了太空经济的创业机会和 AI 基础设施领域的变化与机会,尤其是英伟达在 GTC 上展现的最新规划。

以下是播客的文字整理,有部分精简。

1 TW 超级算力计划的驱动力:探索机器人原生场景,规避地缘监管壁垒

晚点:近期 Fusion Fund 在 AI 基础设施领域有许多新布局和新收获。高通收购了 Fusion Fund 投资的一家端侧小模型公司;马斯克也在 SpaceX 和 xAI 合并后,于 3 月 21 日宣布了建造太空数据中心的 Terafab 计划。作为 SpaceX 的投资方,你如何看待马斯克这一宏伟设想?

张璐:马斯克提出这一构想并非首次。他一直希望从底层芯片到基础设施,再到模型层,构建一个完整的 AI 生态。过去一年的竞争表明,拥有全栈式技术系统能在算力部署和模型优化上占据极大优势。马斯克不仅想自研芯片,更核心的是有自己的算力能力,避免未来发展受限。这是一个宏伟的计划,他也曾设想未来生产实验无需局限于 clean room,但硬件层面的创新与技术整合并不容易,仍需时间沉淀。

这在生态构想上没有问题。随着 SpaceX 即将上市,以及它与 xAI 和 Tesla 的深度整合,马斯克是想将 AI 能力与物理世界整合成 “生态组合拳”,在这个层面上去做应用技术优化、成本优化等。这是一个非常伟大的愿景,有巨大的战略价值。不过,落地周期和所需投资金额可能会远超他的预想。

晚点:马斯克为 Terafab 规划了每年 1 TW 的算力产能,甚至提出要通过 SpaceX 将 80% 到 90% 的算力送入太空,直接利用太阳能解决能源瓶颈。但 Sam Altman 吐槽这一想法不切实际,认为太空发射成本极高,且后续的运维和维修也非常麻烦。你怎么看这一规划?

张璐:短期来看确实面临诸多挑战。首先是宇宙热辐射对芯片性能的影响远超预期;其次是高昂的成本问题,发射成本 SpaceX 可以持续优化,但还涉及复杂的运行与维护成本。

此外,还需要考虑这些算力究竟是用于支持地球还是太空的 AI 应用。如果是为了支持地球应用,由于距离太遥远,除了面临巨大成本,还会产生严重的延迟(latency)问题。目前即使是谷歌,也未能完全解决 TPU 在宇宙辐射下的抗辐射封装难题。

如果是为了解决能源供给和数据中心散热,地球上就有更优的选择。例如加拿大拥有丰富的水资源和能源,气候寒冷且地广人稀,非常适合建造数据中心来驱动北美大陆的 AI 应用,完全没必要舍近求远去太空。我个人认为,马斯克执意在太空建数据中心,另一个重要原因是太空没有任何政府干预,有极大自由度。

我觉得这个设想虽然有着长期的愿景,但短期层面上,技术、成本与实际效用等问题仍需考虑。

晚点:马斯克在这个节点提出该计划,是否也与 SpaceX 准备上市有关?旨在向外界展示 SpaceX 更多元化的未来规划与想象空间?

张璐:这绝对与 SpaceX 筹备上市密切相关。SpaceX 虽然是行业霸主且收入丰厚,但预期上市估值高达 1 万亿美元,价格史无前例。要支撑如此庞大的估值,就需要极为宏大的愿景。

马斯克希望 SpaceX 代表的不只是一家火箭发射或提供 Starlink 卫星服务的公司,而是代表整个太空经济(space economy)及其背后的基础设施价值。这种大规划的延展是为了在市值上充分体现其商业想象力。

同时,马斯克也是一个一以贯之的人,对于这些长线愿景,在未来他确实可能会去付诸实践。正如前面所说,如果未来我们将拥有海量的卫星数据,每颗卫星都可以成为边缘计算设备,那么就近建设太空数据中心确实是一条走得通的路径,延迟问题也会迎刃而解。希望到时能找到更好的方案去解决抗辐射封装和成本问题。

晚点:随着 SpaceX 和蓝色起源等公司不断推动太空经济,除了传统的通信和遥感,未来太空中会有哪些人工智能应用场景?

张璐:首先是太空工厂,这是近期可见的巨大应用场景。在地球上合成新材料、晶体或蛋白质结构会受重力影响;而在太空的微重力或无重力环境下,可以培育出完美的对称晶体结构,这为突破现有的材料和医疗瓶颈提供了全新的解决方案。

其次,太空天然是一个 AI native 和 robotics native 的领域。在地球,由于人力资源相对便宜,一些应用场景使用人形机器人并不是那么合适。但在太空,维持人类生存需要极高的生态搭建成本,而发射机器人的维护费用则低得多。因此,太空工厂天然就是 AI 与机器人的原生生态。

此外,还有许多创新的细分应用。例如利用 AI 进行卫星交通管理,不仅能避免卫星碰撞产生太空垃圾,还能顺带进行高质量的卫星数据交易。这些数据对地球端的矿产探测、山火预警及气象分析极具价值。另一个例子是打造 “太空加油站”,利用自动化机器人系统从月球土壤中提取水,进而分离出氢气和氧气作为火箭燃料。这能大幅减轻地球发射载人飞船时的燃料搭载负担。这些高度自动化的机器人在太空中进行通讯和 AI 部署,同样需要本地化的数据中心支持。

晚点:刚才提到,马斯克设想在太空建立数据中心的部分原因是规避监管。目前在太空进行物理部署或资源开采,合规流程是怎样的?

张璐:确实如此。虽然有国际组织对低轨道进行部分监管,但目前太空资源的归属尚无明确界定,很大程度上处于 “先到先得” 的阶段。马斯克提出的 Terafab 计划要实现 1 TW 的算力产能,如果在地球上推进,特定国家或区域的监管审批和政治阻力将极其巨大。而在太空中,他拥有极大的自由度。作为太空经济的奠基者,他不仅能规避监管,未来甚至可能成为整个太空经济规则的制定方。

这也是为什么美国政府和 NASA 正在加速推进月球计划,明确要在 3 年内重返月球并建立月球基地,这也是在探索太空经济的可能性。虽然近年来出台了一些旨在减少太空垃圾的轨道监管条文,例如谁发射的卫星谁就要负责回收,但执行层面仍是难题。现实情况依然是:谁发射的卫星多、占据的轨道多,别人就越难使用。

马斯克提出的是一个一以贯之的长期宏伟愿景,试图将旗下所有的技术公司进行深度垂直整合。从火箭、卫星、智能终端、机器人,再到芯片和算力基础设施,他希望将这一切都纳入自己的体系。这不只是一个算力工厂,而是相当于构建了一个巨大的、跨公司的工业操作系统。最终,核心的算力基础设施将掌握在他自己手中,不仅可以为 Tesla 或 xAI 供货,更能将整个马斯克生态中多样化的业务紧密绑定。他设定的 1 TW 产能并非基于当下的技术需求,而是面向终极目标:为未来他所设想的机器人社会、自动驾驶网络、卫星边缘计算大的生态,以及大规模 AI 推理提供充足的底层算力支撑。

Terafab 带动 AI 基础设施创业,“马斯克是一个迷人的暴君”

晚点:马斯克每次提出宏大的愿景,往往会催生新的创业风潮,比如此前的商业航天和 Optimus 带来的人形机器人热潮。随着此次 Terafab 计划的提出,你是否观察到美国涌现了相关的创业公司或创业机会?

张璐:核心的创业机会集中在整个 AI 基础设施领域。如今业界已达成共识,不能只关注单一的芯片或算力,AI 应该是一个完整的集成系统。在刚结束的 GTC 大会上,黄仁勋也明确表示,英伟达已经不仅仅是一家芯片公司,而是一家 AI 基础设施公司。未来,AI 基础设施将像能源和交通一样,成为企业核心的护城河。如果不掌握底层基础设施,单纯依靠购买 GPU,被 “卡脖子” 的风险极高。因此,Terafab 愿景带来的核心产业机会在于:面对如此庞大的 AI 基础设施集群,如何通过技术创新帮助这个集群更加高效。

目前涌现出许多新技术,致力于降低数据中心的成本和耗电量。例如我们最近投资的一家公司,专注于下一代 interconnect(互连)和 optical switch(光交换机)技术。AI 运算的耗电不仅来自模型训练,很大一部分源于数据传输。如何让传输过程更高效、耗电更低且速度更快,是未来大规模部署 AI 的关键前提,这也正是创新的重要窗口。

因此,大量新兴的基础设施公司正在快速崛起。今年创投圈一个有趣的现象是,许多过去只关注软件的头部 VC,开始将目光投向 deep tech,其核心诉求正是寻找针对 AI 基础设施的技术创新。

晚点:我也观察到一些与该计划直接相关的创业项目。例如位于华盛顿的 Starcloud 也在做太空计算服务。

张璐:是的,Starcloud 发展迅速,最近正在与我们投资的那家做 “太空加油站” 的公司谈合作。马斯克的愿景确实吸引了大量资本对该领域的关注。

但就我个人而言,太空数据中心距离真正落地还有很长的路要走,这绝不是未来两三年内能实现的事情。即使未来确有需求,轨道数据中心在技术成熟度上可能还需要 7 到 10 年的周期。只有当太空经济全面繁荣,涌现出海量的太空 AI 应用需求时,在太空中搭建数据中心才合情合理。

尽管 SpaceX 的发射成本在逐渐降低,但发射如此庞大体量的数据中心,整体成本依然极高。比发射成本更高的是后续的维护成本。一旦硬件出现故障,在太空中的维修和整体维护费用难以估量,更何况还有前述那些亟待解决的现实技术难题。

晚点:那么现在是初创公司涉足太空数据中心赛道的好时机吗?

张璐:我认为目前切入太空数据中心为时尚早。当下更好的创业机会依然在 AI 基础设施领域,无论是硬件还是软件,围绕基础设施优化的技术创新都大有可为。

如果初创企业一定要探索太空领域,可以先关注数据中心之外的其他太空基础设施机会。不妨先观察未来 3 到 5 年内太空经济的成长速度,再决定何时切入数据中心赛道。

此外,建立数据中心是一个对资本需求极高的重资本投入。初创公司需要想清楚:未来这个赛道的机会究竟属于大企业还是初创企业?自己的定位是去服务这些大型太空数据中心,还是自己去做数据中心?创业前需要明确自己真正的创新机会。

晚点:谈及马斯克在 AI 领域的布局,有一个与基础设施算力无关,但备受关注的话题,即最近 xAI 的人事动荡。许多最初加入的联合创始人陆续离职,这背后的原因是什么?

张璐:这主要反映了两个问题。首先,xAI 内部模型能力的提升速度可能低于马斯克的预期。作为连续成功的创业者,他不惧怕承认错误并及时调整。他秉持 done is better than perfect(完成优于完美)的理念,目标是超越而非仅仅追赶其他模型,因此预期极高,导致团队面临巨大的压力。 其次,这与马斯克的个人性格特征密切相关。他对人才有极强的渴求与招募能力。例如,他曾花费 3 年时间说服一位正在读 PhD 并打算自己创业的联合创始人加入 xAI。他宏大的愿景极具说服力。同时,他个人的工作强度极大,常在凌晨一两点与团队进行头脑风暴,带动整个团队长期处于高压且充满激情的环境中。然而,一旦发现方向错误,他决策极为果断且不留情面,不会顾及团队成员的资历。有人形容他是一位 “有魅力的暴君”,他拥有改变世界的强大内驱力与清晰愿景,为了实现这一最高目标,其他人情世故或得失都不在他的优先考虑范围内。

晚点:经过这轮人员汰换,xAI 未来的发展路径备受业界关注。部分业内人士对 xAI 的前景感到悲观,认为离职的团队成员实力非常强劲。你怎么看?

张璐:其实不必过于悲观。xAI 目前已与 SpaceX 整合,在马斯克的商业生态中,它能调用的资源规模是极其夸张的。很少有初创企业能像 xAI 这样,高效实现与特斯拉及 SpaceX 内部的人才和资源流转。正式成为 SpaceX 的一部分后,xAI 将不再是一家孤立的公司。未来,它将乘势而为,获得巨大太空经济红利的托举,进入加速发展期。此外,xAI 还具备独特的数据优势,不仅能获取真实世界的数据,还能掌握未来的卫星和太空数据,这为其构筑了巨大的潜在优势。

英伟达转型 “AI 工厂”,迅速整合 Groq,应对激增的推理算力需求

晚点:近期全球科技巨头及初创企业在 AI 基础设施层有哪些新布局与新变化?在 3 月的 GTC 大会上,黄仁勋强调算力重心正从训练转向推理。GTC 上发布了推理加速芯片 Groq 3 LPU,该芯片源自 2025 年 12 月对 Groq 的收购,整合速度之快超出预期。结合这些发布内容与近期的行业动作,你认为英伟达在 AI 算力和基础设施上展现出了哪些新思路?

张璐:我们从 2017 年起就与英伟达保持着紧密合作。去年我们有五家被投企业被收购,其中就有两家 AI 基础设施公司就是被英伟达收购。英伟达内部整合的速度极快,迅速上线了针对 GPU 优化的云平台。从那时起,英伟达在基础设施上的战略野心就已经十分清晰了。

在今年的 GTC 大会上,黄仁勋相当于做了一次正式宣告:英伟达已不再局限于一家芯片或 GPU 公司,而是全面转型为全栈式 AI 基础设施公司。他提出了 “Token 经济”(Token Economy)的核心概念,旨在为接下来全面爆发的 token 产业提供底层支撑。

目前,英伟达的目标是成为一家 AI 工厂,而不仅仅是打造最强的 GPU。在加强自身基础设施能力方面,从早期的 CUDA System 到本次推出的 Vera Rubin 平台,再到整合 Groq 的推理加速平台 LPX,英伟达正在将 Groq 的推理加速能力融入 Vera Rubin 这一大型 AI 工厂体系,而非单独开辟一条平行的产品线,这是一种高度整合的思维。

同时,英伟达也希望改变市场认知。当前,市场对英伟达的判断与理解仍停留在将其视为一家芯片公司。然而,黄仁勋希望改变这一认知:他所销售的并非一张显卡或一颗芯片,而是一套完整的系统。这一系统不仅包含 GPU、CPU,同时涵盖网络、存储,以及 CUDA System,并可提供面向 agentic AI 及推理(inference)的整体部署方案 , 思维已超越单芯片层面。

我在斯坦福攻读材料科学与工程专业时,一家公司一年发布一到两颗芯片已经是非常快了;更早时期,甚至可能要好几年才能推出一颗芯片。然而,今年英伟达直接发布了七颗芯片,并且是芯片加完整的互联技术以及推理基础设施的组合。因此,不同于以往仅发布单个芯片或产品,此次发布的是一个生态系统,是对整个生态的整合与优化。我认为这一点至关重要。

另一个重大转变是算力重心的迁移。过去行业的算力消耗可能是 80% 用于训练,20% 用于推理;如今这一比例已逐渐趋近一半一半。训练带来的算力消耗和成本投入是一次性的,但随着未来智能体的铺设,推理端的 token 消耗将变成持续性的庞大现金流。黄仁勋预测,到 2027 年数据中心相关收入可能超过 1 万亿美元,其核心前提就是未来的推理负载将远超早期的训练消耗,甚至可能出现 20% 算力用于训练、80% 用于推理的倒挂局面。

此外,未来所有人工智能产品,包括人工智能的训练与部署,不应仅依赖单一的计算架构来完成。以往我们普遍认为人工智能的底层架构必然以 GPU 为主导,然而,我们去年已经发现某些新型模型架构在 CPU 上的运行效率反而高于 GPU。这也解释了为何黄仁勋在此次大会中特别强调 CPU 的重要性,尤其是在推理场景下,CPU 的作用正日益增强。此外,他还将 Groq 的低延迟、高吞吐推理能力纳入体系,因为 LPU 同样提供了一种新的架构可能性。

同时,我们最近有一家公司被高通收购。高通一直在 NPU 方向上进行研发,因为低能耗对于未来人工智能在边缘设备上的端侧部署,是一种非常重要的底层计算架构。

因此,面向未来,英伟达一方面致力于构建统一化的大型生态平台,另一方面,未来的人工智能应用场景将由多种多样化的计算架构共同支撑。在架构多样化前提下,不再单一依附或依赖 GPU 架构,变得愈加重要。这也是英伟达目前进行更广泛的人工智能生态布局,并将自身重新定义为 “人工智能工厂” 的原因。这些举措相互推动、相互关联。

晚点:从应用层确实能明显观察到这种变化,各类 agent 的爆发带来了庞大的推理需求。英伟达这次久违地发布了全新的 CPU 产品 Vera,距离上一代 Grace 架构已有数年之久。值得注意的是,这是其 CPU 首次与 GPU 采用统一的命名体系。这种统一平台下组合异构芯片的生态趋势确实正变得越来越强。包括对 Groq 的整合速度也令人意外,去年底才完成收购,推进得非常快。

张璐:英伟达内部员工普遍工作强度极大;谷歌许多 AI 团队实行一周七天工作制;Meta 的员工几乎天天处于战备状态,有时工作至凌晨两点,次日清晨七点继续投入工作。当前,AI 创新生态正在加速,竞争环境与市场格局也在快速调整,不同玩家都具备强烈的危机意识并提前布局。

英伟达致力于成为一家全平台公司,因此 CPU 至关重要。Vera 是全球首款专为 agentic AI 和 reinforcement learning 打造的 CPU 处理器,相较于传统 CPU,其效率有成倍提升,并已与阿里巴巴、字节跳动、Oracle 及 Meta 等中美企业展开合作。

在 AI 基础设施中,特别是针对推理和 agentic AI,系统不仅需要输出 token,还要持续调用工具、运行代码及处理多智能体的协同和 simulation 流程。进入智能体时代后,AI 将处于持续运行状态,对 CPU 的依赖会越来越深。将 CPU 纳入生态不仅能提升英伟达平台的完整性,还能让其从整机系统层面统筹定义性能,为客户提供一站式的 AI 工厂解决方案。即使英伟达的 CPU 未必比 AMD 等传统对手做得更好,但这种整体集成优势是巨大的。

晚点:去年英伟达收购了两家由你们投资的 AI 基础设施初创公司,分别是 Lepton AI 和 Nexusflow。这体现了英伟达在 AI 基础设施上的哪些思路?

张璐:这两家公司均由杰出的华人科学家创立,Lepton AI 的创始人是贾扬清,Nexusflow 的创始人是焦剑涛。它们都深耕 AI 基础设施领域,成立不到 2 年,但产品成熟度与商业化推进速度极快。英伟达在去年初便开始与他们接触,看中其产品能为自身生态带来巨大价值而迅速推进收购。收购后的整合也极为高效,例如 Lepton 已被整合为 DGX Cloud Lepton,这也是英伟达未来布局 GPU 云的重要一步。

晚点:去年英伟达最大的收购是对 Groq 高达 200 亿美元的收购案。这反映了英伟达怎样的考量?

张璐:实际上,这并非传统意义上的全资股权收购,而是采取了非独家技术授权与人才吸纳相结合的特殊架构以加速交易。Groq 成立于 2016 年,创始人曾是谷歌 TPU 项目的核心成员。Groq 并非局限于优化 GPU,而是重新设计了推理计算路径,主打低延迟与高 token 通量。 这两个特性精准契合了英伟达搭建 AI 基础设施工厂的需求。Groq 独特的内存架构在特定模型规模下具有显著的速度优势,它的加入对英伟达现有平台能力是极佳的补充。

英伟达的整体战略并未因此改变,依然以 GPU 加 CUDA 作为训练与通用推理的基础,但也吸纳了 Groq 专精的推理加速能力。这种整合促成了今年 Vera Rubin 平台的推出,将其 CPU、GPU、推理加速器、网络与存储等核心组件无缝组合,构筑了完整的 AI 工厂生态。 单看芯片本身,Groq 或许不足以支撑如此高昂的定价,但它为英伟达补全了整体生态的版图。如今,全栈式 AI 平台能力已成为科技巨头构建技术护城河的核心。除了拥有成熟体系的谷歌和苹果,Meta 等公司也在大力投入芯片研发与收并购。

晚点:刚才提到马斯克的产业布局,同样涵盖了从底层芯片到 AI 模型的全栈能力。

张璐:马斯克的构想更为宏大。当前业界主流的 AI 公司多聚焦于大语言模型,并逐步向 multi-modal 和 agent 演进,而再下一阶段必然是世界模型。 构建世界模型不仅需要强大的模型能力,更高度依赖高质量的三维真实世界数据。这正是马斯克的优势所在,他拥有特斯拉的交通与工厂三维数据、SpaceX 的工程与太空卫星数据,以及未来人形机器人所能收集的交互数据,基于 physical AI 的世界模型能力将极为强悍。相比其他公司主要依赖二维视频数据,马斯克掌握了极为丰富的三维真实数据。一旦这些数据被有效整合到世界模型生态中,其整体能力将比现有科技公司的生态再提升一个量级。

晚点:前面提到了英伟达的全栈布局,其他大公司也认识到了深度垂直整合的重要性。在美国,关于 Google 的 TPU 与英伟达的 GPU 的讨论也比较多,目前业界普遍认为前者的竞争力很强。Google 近期在 AI 算力与基础设施方面有什么动作和变化?

张璐:Google 在 TPU 上的投资已超过十年,这证明它很早就意识到了推理的重要性,并沿着这条技术路线进行了深厚的积累。TPU 最大的能力其实体现在 Google 自身的生态中。它的优化基于 Google 整体的全栈式架构,补全了从芯片层、模型层到数据层的各个环节,配合充沛的现金流、丰富的应用场景以及现实世界的反馈,打造了一个非常完善的生态。

但是,当第三方使用 TPU 时,芯片性能发挥得往往没有在内部那样好,这归结于系统优化的差异。Google 自身使用 TPU 时,不仅性能优越,成本也极低,整体 training cost 大约只有 ChatGPT 的三分之一。这种系统层面的深度优化直接带来了显著的成本优势。第三方公司由于缺乏 Google 那套完整的系统环境,无法做到同等程度的优化,导致性能和成本都会打折扣。

这也是为什么尽管资本市场热衷于讨论 TPU 抢占 GPU 市场,但短期来看,TPU 仍难以对 GPU 构成有效威胁。况且,未来的 AI 市场无比巨大。目前 AI 的产业部署与整合才刚起步,在金融、医疗保险等大型行业中,应用渗透率可能不足 1%。当 AI 真正大规模铺开后,对算力的需求将是海量的,单靠一家厂商的 GPU 或单一的计算架构来支撑并不现实。未来的市场必然需要多样化的计算架构,除了英伟达,还需要其他科技公司提供各具特色的解决方案,以筑牢大规模人工智能部署的算力基础。

晚点:我们此前的节目曾邀请过两位从 Google 出来创业的嘉宾,他们提到 Google 内部开发了类似于 CUDA 的 JAX 等软件系统,所以内部使用得非常顺手。不过,一个可能促进 TPU 普及的因素是,Google 会大力支持许多具备 Google 背景的创业者使用从芯片到系统层的整套 TPU 方案。比如马斯克的 xAI 早期团队中,有一些前 Google 员工,他们对这套系统就非常熟悉。

张璐:是的,如果 Google 也能建立起一套完善的软件系统去支持 TPU 的使用,从开发者的角度来看,操作门槛会大幅降低。但这也是为什么英伟达不再仅仅满足于拥有 CUDA 系统,而是致力于打造更全面的全栈式、全平台服务,帮助开发者在其生态内完成方方面面的部署与整合。随着全栈服务的完善,开发者对英伟达平台的依赖性会越来越深,最终将很难再低成本地迁移到其他计算架构平台上。

题图来源:Terafab

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法