“谁有本事做个机器人,让它到千家万户都能开门,这就叫牛。”
作者|刘杨楠 沈伊人
编辑|王博
故事要从北京亦庄说起。
在这片曾以工业与制造园区著称的土地上,厂房林立,路网密布,各色机械设备构成了这里长期以来的底色。但在2023年,这里的气质悄然发生了变化。
2023年冬天,北京亦庄(北京经济技术开发区)悄然完成了一次“组局”。多方力量汇集,北京人形机器人创新中心有限公司(以下简称“北京人形”)注册成立,它被赋予的使命并不掩饰其野心——打造通用机器人平台和通用具身智能平台,构建软硬件协同的技术底座,为尚未成熟的人形机器人产业搭起一条更稳定的路径。
这个故事的起点,与其说是公司成立,不如说是一群科学家和工程师的重新出发。有人在过去的创业周期中积累过经验,也看过行业的盲区与浮躁;他们选择再次入局,是因为始终不甘心于“机器人能跑会跳,却难以真正落地”的现状。
唐剑就是其中之一。
北京人形机器人创新中心有限公司CTO 唐剑
这位曾任美国雪城大学终身教授、获得过IEEE Fellow头衔的科学家,在学术界研究了半辈子“AI驱动的系统控制”。后来进入产业界,先后担任滴滴智能控制首席科学家、美的公司首席AI官,积累了丰富的产业落地经验。
2024年夏天,他来到了亦庄,成为了北京人形机器人创新中心有限公司CTO。他把这次重新出发归因于与公司CEO熊友军“志趣相投”,以及想要“让人形机器人真正能进千家万户”的理想。
今年,因为一场人形机器人半程马拉松,北京人形研发的“具身天工”机器人出圈了。
“具身天工Ultra”机器人获得全球首个人形机器人半程马拉松冠军
这次出圈给北京人形带来了大量关注,同时也让公众产生了一些误解——“‘具身天工’只会跑步”“这只是一场秀”“机器人跑马拉松没有意义”。
“能跑”仅仅是北京人形“具身天工”机器人的一个标签,在今年8月举行的世界机器人大会上,“甲子光年”就注意到北京人形发布了具身世界模型体系、具身多模态大模型、人形机器人全自主导航系统、跨本体VLA模型等创新技术,并实现了复杂场景下的异构多本体协同工作。
就在上个月,北京人形发布了一个让机器人真正“看见、理解并行动于世界”的具身世界模型——WoW(World-Omniscient World Model),帮助具身智能机器人快速学习掌握各项技能,助力行业打造“好用”的机器人。
其实,北京人形既不是传统国企,也不是一般意义上的创业公司,它从诞生之初就承载着整合行业资源的使命。翻开股东名单,优必选、小米机器人、京城机电……这些在市场上或为“竞争对手”的企业,在这里成为了“同桌队友”。
一方面,北京人形是“国家地方共建具身智能机器人创新中心”;另一方面,北京人形仍需自筹资金,直面市场竞争。
这种特殊生态位,也要求北京人形需要承担更多商业目标之外的社会责任,攻克那些初创嫌太重、国企嫌太难、高校嫌太工程的共性难题。
在北京人形成立两周年之际,“甲子光年”与唐剑进行了一次深入的对话。
我们能感受到的是,以唐剑为代表的北京人形技术团队极为务实,不执念于训练与scaling law,目标明确,就是要提升机器人操作能力,实现快速落地。目前,北京人形围绕具身智能进行全栈布局,软硬件并举,大力推进开源、数据采集与行业标准。
虽然还有未完成的目标,但唐剑多年技术理想也终于有望形成现实的回环——把机器人从实验室送进千行百业、千家万户。
1. 人形机器人的双重瓶颈
当前,在从实验室研发迈向多场景应用的关键时期,具身智能产业正面临着一场严峻考验。
在当下的创投圈与产业界,流传着一种观点,“具身智能的落地,难点不在具身,难在智能。” 这种观点认为,随着宇树、具身天工、松延动力等企业的努力,运动控制的上限已被不断突破,现在的瓶颈核心在于大模型不够聪明。
对于这个观点,唐剑虽不否认,却并不完全认同。
事实上,在具身智能领域,一直有一个核心共识是“硬件决定下限,软件决定上限”,即机器人的硬件形态由场景与用户需求定义,而软件则用于解锁硬件的潜能。
然而,当前行业中普遍存在一种线性的开发模式:本体团队完成硬件后交由运控团队,运控调试完毕再交给算法团队。在唐剑看来,这种流水线作业并非最优解。
真正的突破需要软硬件深度协同、双向闭环。例如,为实现更优的运动控制,北京人形的算法团队会向硬件团队反馈关键指标,机器人不仅要轻量化,其上下肢的重量分配比例更是至关重要。只有软硬件双向奔赴,机器人才能实现系统性能的最大化。
只是,目前来看,机器人的硬件和软件各有瓶颈。他将行业瓶颈分为线性瓶颈与非线性瓶颈两大维度。
“现在其实你看到的运动表现特别出色的,都是一些小尺寸的机器。其实真正的全尺寸、真的非常类人的机器人,比如身高在1.6米以上的,在整个运动性能上还没有表现得特别出色。” 唐剑直言。
业界公认,随着机器人身高和体重的增长,运动控制的难度呈指数上升。目前的硬件技术路线尚未完全收敛,依然面临着诸多物理层面的限制,唐剑将其归类为“线性瓶颈”。
例如,关节与散热方面, 关节的扭矩密度目前仍然较低,且在大负载运动下发热现象严重,直接限制了机器人的爆发力和持久性。
在精细操作方面,灵巧手是核心。想要高自由度,体积就很难做小;想要体积小,自由度往往受限,通常只有6个,这使得精细操作(如穿针引线或复杂装配)极难掌握。
天轶2.0在世界人形机器人运动会获物料整理冠军
端侧算力方面,公众在演示视频中看到的流畅动作,后台往往拖着一台搭载英伟达4090显卡的高性能工作站。真正依靠机器人板载芯片(如Orin)进行实时推理时,算力依然捉襟见肘。行业一直期待着下一代芯片(如Thor)或国产算力芯片的突破。
机器人续航方面,现有电池能量密度低,而固态电池虽然能量密度高,但循环寿命短,尚无法满足商业化落地对续航和寿命的双重需求。
尽管困难重重,但唐剑对此态度相对乐观。他之所以称其为“线性瓶颈”,是因为这些问题本质上是工程问题,“假以时日,只要有资本和人力投入下来,每年都会有一个比较大的进步。”
相比之下,更棘手、也更具不确定性的是非线性瓶颈,其核心在于软件,包括数据、算法以及配套的软件开发工具链。
“核心就是大模型的泛化能力什么时候能达到ChatGPT时刻?” 唐剑表示,“我不知道,很难讲。什么时候有突破,也可能就是明年,也可能是很长,三年、五年甚至十年的时间。”
在这个非线性瓶颈中,数据以及机器人的大脑、小脑都均面临不同程度的瓶颈。
数据方面,行业极度缺乏高质量、标准化的具身交互数据。一方面,高质量、场景化的数据集采集成本极高。单一企业难以覆盖足够多的场景,导致模型泛化能力受限;另一方面,很多创业公司都将辛苦采集的数据视为核心壁垒,互不开放。加之机器量产断档、检测标准缺失,导致实验室成果难以转化为稳定可靠的产品。
此外,机器人大脑的核心发力点在于理解物理世界的运行规律,并能将想法高效反馈到动作上。而小脑则需在跑步、打拳等空间移动的基础上,在精细化操作上寻求突破。
近期,运控算法层面出现了一波小爆发。通过引入新的算法,如应对外部扰动的鲁棒性算法,小尺寸机器人的抗干扰能力大幅提升。唐剑预测,这股技术浪潮很快会传导至全尺寸机器人,带来运控能力的整体跃升。
但他也强调,无论是本体的轻量化设计,还是软件的泛化能力,未来依然有巨大的提升空间。
面对上述瓶颈,行业内各玩家的布局目前更加碎片化:有人专攻小脑,有人死磕大脑,有人只做本体。这种选择背后,往往反映了创业团队资金和人员禀赋的局限。
2. 北京人形的“具身基建”
站在独特的生态位上,北京人形自成立之初就选择了全栈布局。唐剑表示,整个创新中心定位为平台型企业,提供两大平台。
第一个是硬件平台,即“具身天工”和“天轶”系列机器人。这不仅是终端产品,更是开放的二次开发载体。
通用机器人平台聚焦于物理基座,突破了高性能一体化关节与轻量化本体技术,为工业分拣、特种作业等场景提供了稳定灵活的硬件载体。
具身天工物流场景作业
外界对北京人形的认知始于“具身天工”在机器人马拉松上的夺冠。唐剑透露,“具身天工”接下来的优化方向是提升柔顺度和拟人性,“软硬件都需要往前进步才行,这是一个相辅相成的过程。”
第二个是软件平台,这也是某种程度上被外界低估的。北京人形推出的“慧思开物”的一站式通用具身智能开发平台填补了具身智能通用软件系统的空白,旨在解决跨本体、跨场景的适配难题。
唐剑对“甲子光年”详细解读了“慧思开物”的技术架构。
其中,具身“大脑”负责告诉机器人该怎么干,它背后拖着两个关键模型,一个是VLM(视觉-语言模型),推理时真正使用的大模型,负责感知和决策;一个是世界模型,作为一个辅助工具,帮助VLM进行自主进化和训练。
在“慧思开物”的大脑架构中,世界模型是当下最引人注目的技术高地。
依托于图灵奖得主杨立昆(Yann LeCun)的定义,唐剑给出了一个通俗的解释:“比方说我现在给你一个‘状态’(桌子上有杯子),然后给你一个‘动作’(我去抓杯子)。世界模型要做的,就是准确预测出基于这个动作,未来几帧会发生什么。”
目前市面上存在很多视频生成模型,但唐剑指出,评判具身世界模型的核心指标不是画面的清晰度,而是“对物理规律的遵循”与“时空一致性”。
“一般的视频生成模型更重视视觉效果。比如手碰到杯子,如果模型不懂物理规律,手可能会直接穿模过去,或者杯子纹丝不动。这在做宣传视频时没问题,但在控制机器人时是致命的。” 唐剑解释道。
为了实现这种物理直觉,目前大多团队选择“视频模型基座+机器人数据后训练”的路径。北京人形也采取了这一策略:基于开源基础模型,集中算力注入特有的300万条机器人操作数据,整个训练过程消耗的算力约为百卡级。
唐剑明确表示:“没必要自己从零做预训练,完全可以选一个特别牛的、已经预训练好的模型。” 这就像小孩子已经通过书本(互联网数据)认识了世界,现在要做的是带他去工厂实地操作。
值得注意的是,北京人形研发的WoW(我悟)世界模型,并非单一模型,而是一个系统。
WoW(我悟)世界模型
这套系统基于北京人形自研的SOPHIA架构建立了一套“双向反馈机制”, 大脑(VLM)会对世界模型生成的视频进行反馈,这些反馈被引入强化学习(RL)架构,作为奖励函数去微调世界模型。这种机制迫使生成的内容尽量符合物理规律,而非仅仅看起来逼真 。
在唐剑看来,包括WoW在内的所有世界模型都承载着三个关键使命:
一是辅助大脑自主进化,当机器人遇到新任务时,WoW结合蒙特卡洛树搜索(MCTS)算法,在数字世界里预演无数种路径,并由奖励模型打分。这些“模拟数据”反过来微调VLM,让大脑在没有实战的情况下学会解决问题。
二是直接生成大量符合物理规律的机器人操作轨迹视频,解决行业最头疼的训练数据短缺问题。
三是直接控制机器人的操作。目前,WoW未来不仅能生成视频,还能像VLA一样,将生成的视频转化为光流,再映射到关节角度,直接生成控制信号驱动机器人。
在“大脑”提供智能的基础上,具身“小脑”负责具体操作(Do it)。它分为两个子平台,一个负责具身操作,涵盖元技能库、泛化抓取、技能拆解和错误处理;一个负责具身运控, 负责全身控制、双臂协作、稳定行走和移动导航(SLAM)。
小脑的核心则是跨本体的VLA(视觉-语言-动作)模型XR-1,负责将大脑的抽象指令转化为具体的、毫秒级的电机控制信号,确保机器人走得稳、抓得准。
11月13日,北京人形全面开源了一项技术成果,即具身智能VLM模型——Pelican-VL(天鹕)。
在由1000多张英伟达A800 GPU组成的算力集群上,团队消耗了数万GPU小时,从海量原始数据中蒸馏出数亿Token的高质量元数据,最终训练出了这个覆盖7B、72B参数规模的具身多模态大脑。在基线基础上性能提升20.3%。
如果你对“72B参数”或“20.3% 性能提升”这样的数字不敏感,不妨想象这样一个场景:面对“把鞋子放鞋架、垃圾扔桶里、衣服放洗衣机”这样一连串复杂的复合指令,搭载Pelican-VL(天鹕)的机器人能像人类一样,先环顾房间构建语义地图,再自动拆解任务序列,依次移动去执行。它不仅能“看图听话”,还能在执行中不断根据环境变化调整计划。
慧思开物这套“大脑+小脑”的架构形成了完整的闭环:由具身“大脑”进行任务规划,调用具身“小脑”的技能库执行具体动作,并将执行反馈传递回大脑。
不过,技术闭环只是产业快速发展的起点。真正的挑战在于,如何让这套系统走出实验室,在真实、复杂的产业环境中落地应用。
3. 众人拾柴火焰高
北京人形造平台的核心目的,实则是为具身智能软硬件生态提供一个载体。
平台必须向下连接多种规格、多种形态的硬件本体,上层长出丰富多元、融合各场景业务逻辑的机器人软件应用。只有当硬件、平台、应用三者形成闭环,才能让具身智能的技术创新跳出“低效”“碎片化”“重复建设”的恶性循环,找到自己的“scaling law”。
而这项系统工程,无法只靠一两家公司完成,北京人形希望成为在行业背后推一把的力量。
10月19日,在IROS 2025(2025年智能机器人与系统国际会议)期间,北京人形正式开放了慧思开物SDK,为开发者提供了从技能调用到场景部署的完整工具链。
“这就像当年写安卓APP的企业,”唐剑比喻道,“很多二次开发企业可能就几个人,核心是把不同场景的业务逻辑写进机器人的脑袋里。” 无论是导览、分拣还是特种作业,开发者不需要懂复杂的运控算法或大模型训练,只需利用SDK这个“炮弹”,去攻克各自领域的山头。
目前发布的版本主要针对具备一定基础的高级开发者。唐剑透露,预计在明年第一季度,将释放带有GUI(图形用户界面)的版本,甚至支持低代码/零代码开发,进一步降低门槛。
目前的SDK已能支持具身天工、天轶、以及Franka和UR机械臂等多种本体。
除了工具链,北京人形还在积极打破“数据荒”。唐剑透露,北京人形近期可能会开源至少30万条轨迹数据。这些数据不仅包含视觉信息,更关键的是包含了触觉传感器数据,这对于精细操作至关重要。
同时,作为“国地共建”中心,北京人形开始介入行业基础规范建设,包括牵头制定《人形机器人智能化分级》标准,并联合北航、优必选等机构立项《具身智能从业人员能力要求》,试图填补行业人才评价和数据规范的空白。
一切技术和生态的努力,终极目的都是让机器人走入千行百业。但这依然步履维艰。
唐剑坦言:“我们的主要收入还是机器人销售,客户主要是教育科研机构。”这印证了行业的一个尴尬现状:最先为具身智能买单的,依然是把机器人买回去做研究的人,而不是让机器人去干活的人。
真实的应用场景需求极其复杂。目前,北京人形正在推进多个POC(概念验证)项目,试图跨越从Demo到“实地干活”的鸿沟。
例如,北京人形和电科院达成合作,机器人尝试进行复杂的电力巡检任务;在工业场景,公司也和福田康明斯工厂达成合作,让天轶机器人尝试连续搬运箱子。
具身天工在工厂搬箱子
唐剑告诉“甲子光年”:“现在的机器人可以接受语音指令,比如‘拿两个箱子放在架子第二层’,这些都能实现。”
4. 让机器人走入千家万户的梦想
阻碍机器人从实验室走向千家万户、千行百业的最大障碍,是泛化能力。
“机器人泛化能力不够的话,就单说开门这一个我们人类看起来很简单的动作,一旦遇到门颜色变了、把手形状变了,或者光线暗了一点,它就打不开了。”唐剑补充道。
这正是VLA模型和世界模型当下最真实的瓶颈。
在学术论文中,机器人往往是在固定的桌面上操作固定的物体;但在现实中,没有两片完全相同的树叶,也没有两个完全相同的工厂环境。唐剑冷静指出:“老实讲,直到今年大家才觉得VLA进化到确实能用了。之前基本都停留在学术文章上。”
客观来看,VLA模型在训练时与特定的机器人本体绑定较强。换一个机器人形态,例如从人形机器人换成四足机器狗,甚至是换一种机器人本体构型,模型就需要相应后训练数据重新适配。
目前,北京人形的XR-1已经能够在7款机械臂上具备泛化能力,但这种泛化能力来之不易。北京人形采集了这七款机械臂的运动轨迹数据,并进行相应训练才实现的。在实际部署到特定场景时,还需要选定最终的本体,并针对该场景采集几十到上百条数据对模型进行微调,以确保其在该场景下达到最优性能。
整体上看,VLA模型要具备泛化能力,整个过程相对繁琐且不够经济。
聊到最后,我们问了唐剑一个问题:“如果现在让你写一篇论文,你最想写什么?”
唐剑沉思片刻回答,自己想去深度反思VLA架构本身到底是不是具身操作的最优解,去解决行业最底层的泛化难题。
这种对底层技术路径的审视,也塑造了他对更宏大技术命题的独特看法。
他不热衷于争论特定的架构是否收敛,也不迷信某个模型是否已经涌现智能,“我觉得有可能是殊途同归,多种架构最终都能实现智能涌现。”
相比之下,他更看重机器人在物理世界中的实际价值:“谁有本事做个机器人,让它到千家万户都能开门,这就叫牛。”
在唐剑看来,真正的具身智能不能停留在论文指标,而应体现在每一扇能被稳定打开的门上。
在2023年的冬天,唐剑就是这样想的;而在2025年的冬天,虽然还有未完成的目标,但不同的是,他的身边有了更多志同道合的人。
他们恰恰在践行着北京人形作为“国家具身智能基建”的真正价值——不止于探索技术的上限,更要守住产业落地的底线,让机器人在真实的物理世界里,稳定、可靠地把事做成。
(封面图及文中配图来源:北京人形)
END.
精彩评论