从“看懂文字”到“理解世界”：AI 正在经历范式迁移_老虎社区_美港股上老虎

从“看懂文字”到“理解世界”：AI 正在经历范式迁移

过去三年，ChatGPT 等大型语言模型已经展现出在语言理解、代码生成和逻辑推理方面的卓越能力。然而，有一个常被忽略的事实是：这些 AI 能谈论世界，却对世界的物理本质几乎一无所知。它们知道“杯子”这个词，却无法理解杯子掉落会碎；能够描述重力，却无法真正理解物体碰撞时的动量守恒。当 AI 从数字世界走向物理世界，一场以"空间智能"为核心的范式迁移正在发生。

世界模型的三大支柱：从"看到"到"做到"

斯坦福大学教授李飞飞在近期分享中，将"世界模型"系统从功能视角划分为渲染器（Renderer）、模拟器（Simulator）和规划器（Planner）三大类别，为空间智能与物理 AI 提供了清晰的概念框架。

渲染器负责视觉合理性，如 Sora、GPT-image-2，画面美观但生成的建筑可能因缺乏结构支撑而坍塌。模拟器强调物理忠诚度，一个杯子必须包含质量分布、摩擦系数与碰撞边界。规划器负责行动输出，是机器从"观察者"向"实践者"进化的关键。

在李飞飞的框架中，模拟器是连接渲染器与规划器的纽带，也是整个体系的核心。如果说语言模型让 AI 学会了"思考"，那么模拟器将让 AI 学会"生存"。

巨头入局：物理 AI 生态加速成型

目前，物理 AI 领域最具代表性的推动者是英伟达。其 Omniverse 平台已支撑工厂、供应链和仓库的万亿级数字孪生。

2026 年 6 月，黄仁勋在台北 GTC 发布全球首款完全开放的全模态物理 AI 模型 NVIDIA Cosmos 3，基于混合 Transformer 架构，实现视觉推理、世界生成和动作预测的闭环能力。黄仁勋指出："现实世界无限且不可预测，物理 AI 需要数据，但现实数据无法规模化，因此算力即数据。"

据测算，物理 AI 在制造与物流领域的潜在市场约 50 万亿美元。英伟达还牵头成立了 Cosmos Coalition 全球协作联盟，集结思灵机器人、黑森林实验室、Runway 等顶尖团队，并推出 Isaac GR00T 人形机器人参考设计，由 Jetson Thor 平台驱动，计划 2026 年底由宇树科技推出，标志着物理 AI 正从实验室迈向产业化。

谷歌则沿另一条路径推进。其 Genie 模型率先实现长时序实时生成和交互，最新 Gemini Omni 进一步融合物理能力。兴业证券研报指出，目前世界模型主流为视频生成路径（显式生成、隐式推理），以 Yann LeCun 为代表的隐式路径侧重抽象建模，李飞飞的 3D 路径侧重空间重建。两大路线并进，推动世界模型从"能看"走向"能懂"。

产业链拆解：四层架构与核心瓶颈

物理 AI 产业链可分为四大板块。

世界模型层是核心基础设施，包括英伟达、Meta、Google，以及国内的五一视界（51World Model）、群核科技（SpatialVerse）、索辰科技、商汤等。仿真平台层是落地的重要基础设施，据沙利文数据，预计 2030 年中国物理 AI 仿真及数据平台市场规模达 1806 亿元。具身数据层是当前核心瓶颈：行业主流真机训练数据仅几万小时，对标 GPT-3 约 1580 万小时的训练规模，缺口巨大。智元机器人计划 2026 年建设千万小时数据产能，混合数据训练（虚拟预训练+真实精调）已成行业共识。工业软件层支撑训练验证，具身智能层构成"感知—理解—推理—行动"闭环，自动驾驶层有望率先实现商业闭环。

预期差：长期赛道与短期炒作的博弈

李飞飞指出，过去几十年的 AI 研究一直在探索让机器进入物理世界的“钥匙”。如今我们拥有善于处理逻辑的语言模型，接下来需要的是善于处理空间的模型。

物理 AI 并非简单算法优化，而是一场 AI 的范式迁移：从渲染到模拟再到规划，三大支柱的融合正在模糊界限，统一世界模型的雏形正在显现。

然而，正如世界模型专家杨立昆指出，乐观估计，机器智能要勉强接近一只小狗，至少还需要五到十年。这意味着物理 AI 是长期赛道，短期概念炒作与长期产业落地之间存在巨大预期差。

对于投资者而言，理解产业链层级结构，区分“真基础设施”与“纯概念”，远比追逐热点更重要。

$群核科技(00068)$ @爱发红包的虎妞

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

从“看懂文字”到“理解世界”：AI 正在经历范式迁移

评论

热议股票