从“看懂文字”到“理解世界”:AI 正在经历范式迁移
过去三年,ChatGPT 等大型语言模型已经展现出在语言理解、代码生成和逻辑推理方面的卓越能力。然而,有一个常被忽略的事实是:这些 AI 能谈论世界,却对世界的物理本质几乎一无所知。它们知道“杯子”这个词,却无法理解杯子掉落会碎;能够描述重力,却无法真正理解物体碰撞时的动量守恒。当 AI 从数字世界走向物理世界,一场以"空间智能"为核心的范式迁移正在发生。
世界模型的三大支柱:从"看到"到"做到"
斯坦福大学教授李飞飞在近期分享中,将"世界模型"系统从功能视角划分为渲染器(Renderer)、模拟器(Simulator)和规划器(Planner)三大类别,为空间智能与物理 AI 提供了清晰的概念框架。
渲染器负责视觉合理性,如 Sora、GPT-image-2,画面美观但生成的建筑可能因缺乏结构支撑而坍塌。模拟器强调物理忠诚度,一个杯子必须包含质量分布、摩擦系数与碰撞边界。规划器负责行动输出,是机器从"观察者"向"实践者"进化的关键。
在李飞飞的框架中,模拟器是连接渲染器与规划器的纽带,也是整个体系的核心。如果说语言模型让 AI 学会了"思考",那么模拟器将让 AI 学会"生存"。
巨头入局:物理 AI 生态加速成型
目前,物理 AI 领域最具代表性的推动者是英伟达。其 Omniverse 平台已支撑工厂、供应链和仓库的万亿级数字孪生。
2026 年 6 月,黄仁勋在台北 GTC 发布全球首款完全开放的全模态物理 AI 模型 NVIDIA Cosmos 3,基于混合 Transformer 架构,实现视觉推理、世界生成和动作预测的闭环能力。黄仁勋指出:"现实世界无限且不可预测,物理 AI 需要数据,但现实数据无法规模化,因此算力即数据。"
据测算,物理 AI 在制造与物流领域的潜在市场约 50 万亿美元。英伟达还牵头成立了 Cosmos Coalition 全球协作联盟,集结思灵机器人、黑森林实验室、Runway 等顶尖团队,并推出 Isaac GR00T 人形机器人参考设计,由 Jetson Thor 平台驱动,计划 2026 年底由宇树科技推出,标志着物理 AI 正从实验室迈向产业化。
谷歌则沿另一条路径推进。其 Genie 模型率先实现长时序实时生成和交互,最新 Gemini Omni 进一步融合物理能力。兴业证券研报指出,目前世界模型主流为视频生成路径(显式生成、隐式推理),以 Yann LeCun 为代表的隐式路径侧重抽象建模,李飞飞的 3D 路径侧重空间重建。两大路线并进,推动世界模型从"能看"走向"能懂"。
产业链拆解:四层架构与核心瓶颈
物理 AI 产业链可分为四大板块。
世界模型层是核心基础设施,包括英伟达、Meta、Google,以及国内的五一视界(51World Model)、群核科技(SpatialVerse)、索辰科技、商汤等。仿真平台层是落地的重要基础设施,据沙利文数据,预计 2030 年中国物理 AI 仿真及数据平台市场规模达 1806 亿元。具身数据层是当前核心瓶颈:行业主流真机训练数据仅几万小时,对标 GPT-3 约 1580 万小时的训练规模,缺口巨大。智元机器人计划 2026 年建设千万小时数据产能,混合数据训练(虚拟预训练+真实精调)已成行业共识。工业软件层支撑训练验证,具身智能层构成"感知—理解—推理—行动"闭环,自动驾驶层有望率先实现商业闭环。
预期差:长期赛道与短期炒作的博弈
李飞飞指出,过去几十年的 AI 研究一直在探索让机器进入物理世界的“钥匙”。如今我们拥有善于处理逻辑的语言模型,接下来需要的是善于处理空间的模型。
物理 AI 并非简单算法优化,而是一场 AI 的范式迁移:从渲染到模拟再到规划,三大支柱的融合正在模糊界限,统一世界模型的雏形正在显现。
然而,正如世界模型专家杨立昆指出,乐观估计,机器智能要勉强接近一只小狗,至少还需要五到十年。这意味着物理 AI 是长期赛道,短期概念炒作与长期产业落地之间存在巨大预期差。
对于投资者而言,理解产业链层级结构,区分“真基础设施”与“纯概念”,远比追逐热点更重要。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


