过去三年,ChatGPT 等大型语言模型已经展现出在语言理解、代码生成和逻辑推理方面的卓越能力。然而,有一个常被忽略的事实是:这些 AI 能谈论世界,却对世界的物理本质几乎一无所知。它们知道“杯子”这个词,却无法理解杯子掉落会碎;能够描述重力,却无法真正理解物体碰撞时的动量守恒。当 AI 从数字世界走向物理世界,一场以"空间智能"为核心的范式迁移正在发生。 世界模型的三大支柱:从"看到"到"做到" 斯坦福大学教授李飞飞在近期分享中,将"世界模型"系统从功能视角划分为渲染器(Renderer)、模拟器(Simulator)和规划器(Planner)三大类别,为空间智能与物理 AI 提供了清晰的概念框架。 渲染器负责视觉合理性,如 Sora、GPT-image-2,画面美观但生成的建筑可能因缺乏结构支撑而坍塌。模拟器强调物理忠诚度,一个杯子必须包含质量分布、摩擦系数与碰撞边界。规划器负责行动输出,是机器从"观察者"向"实践者"进化的关键。 在李飞飞的框架中,模拟器是连接渲染器与规划器的纽带,也是整个体系的核心。如果说语言模型让 AI 学会了"思考",那么模拟器将让 AI 学会"生存"。 巨头入局:物理 AI 生态加速成型 目前,物理 AI 领域最具代表性的推动者是英伟达。其 Omniverse 平台已支撑工厂、供应链和仓库的万亿级数字孪生。 2026 年 6 月,黄仁勋在台北 GTC 发布全球首款完全开放的全模态物理 AI 模型 NVIDIA Cosmos 3,基于混合 Transformer 架构,实现视觉推理、世界生成和动作预测的闭环能力。黄仁勋指出:"现实世界无限且不可预测,物理 AI 需要数据,但现实数据无法规模化,因此算力即数据。" 据测算,物理 AI 在制造与物流领域的潜在市场约 50 万亿美元。英伟达还牵头成立了 Cosmos Coalition 全球协作联盟,集