“自动驾驶软件可能接近天花板了,但是物理 AI 刚开始。”
文丨李安琪
编辑丨龚方毅
2022 年下半年,通用汽车旗下的 Cruise 在旧金山晚高峰跑了一趟一个半小时的 Robotaxi(无人驾驶出租车),全程零接管。不久后公司请 Sam Altman 做了一场内部炉边谈话,当时在 Cruise 做机器学习和计算机视觉研究的刘先明和同事们聊起这趟行程,很骄傲。而 Sam Altman 一直在说他们正在做的 ChatGPT —— 当时没太多人在意。
几个月后 OpenAI 发布 ChatGPT,一个足够简单的模型架构,加上足够大的参数量、数据和算力,展现出超越预期的智能。刘先明说当时被震撼了,他想也许沿着同样的路径,不用手写成千上万条规则,不用给系统装五颗激光雷达再把沿街会遮挡传感器的树枝修剪一遍,智能驾驶也有机会涌现出智能。
2024 年初,他带着这个判断加入小鹏汽车。在小鹏硅谷办公室第一次见何小鹏时,他想的是 “如果他听不懂我在说什么,我就不来了”。
今年 3 月,基于这套逻辑开发的小鹏汽车第二代 VLA [1](视觉-语言-动作模型)开始上车。这也是刘先明加入小鹏以来最完整的一次交付。因为太多同行想测,一辆装了新版软件的试驾车,日租金一度被炒到八千元。
交付后,我们在小鹏的上海研发办公室见到了刘先明。他剃个圆寸头、戴黑框眼镜、说话温和,是 i 人但因为工作成了话痨。熟人评价他 “目标感很清晰,能力非常综合,既能讲很深的技术,也能把复杂问题说清楚”。
刘先明在小鹏汽车历任北美 AI 负责人、基座模型负责人、自动驾驶中心负责人,2026 年 2 月出任通用智能中心负责人,统管智驾和座舱这两个原先的一级部门。在他之前,吴新宙为小鹏建立了智驾第一梯队的行业认知,李力耘用工程和规则把 “端到端” 高阶辅助驾驶推向全国量产。刘先明要做的是自研基座模型,拆掉语言翻译,让模型从视频和驾驶数据里直接学开车。
两年间,刘先明成了小鹏花钱最多的人。2025 年,他统管的业务吃掉了 45 亿元年度 AI 研发预算中最大的份额。何小鹏在第二代 VLA 量产推送前的直播里说 “连续十几个月,每月花 3 个亿去赌这个事情,心里也很慌。”
但一个绕不开的问题是,智驾行业目前的整体处境是否值得这种规模的投入。目前没有哪个细分市场的销量冠军是靠智驾赢的,头部智驾供应商还在亏钱,而且技术领先的花期又很短,总有后发者快速追上。
刘先明的回答是,他们赌的不只是智驾,还有物理 AI。而在实现这个愿景前,他跟何小鹏还有一个更具体的赌约:今年 8 月底达不到特斯拉 FSD V14 在硅谷的水平,他将在金门大桥裸跑。
以下是《晚点 Auto 》和小鹏汽车通用智能中心负责人刘先明的对谈与追问,经编辑:
“拆掉 Language,VLA 2.0 才真正开始”
晚点:什么是 VLA 2.0?
刘先明:之前行业里做智驾大模型,包括我们第一代 VLA,基本都是拿开源的语言模型做骨架,加上图像数据就能做 VLM [2](视觉-语言模型)。但问题是摄像头看到画面后要先经过语言模型处理再输出驾驶动作这个过程,容易有高延迟,一秒钟只能输出两三次指令,做不到实时处理。
做 VLA 2.0 时我们自研基座模型,传感器信息输入系统,输出驾驶动作,中间不再经过语言(Language)翻译。这个基座模型接上动作模块就是 VLA 控车,接上视频生成就是世界模型。
从头训练一个基座模型需要大量的钱、数据和精力,还要冒险,当下汽车行业谁敢在不确定的情况下投这么多?这个决定是最难的。做出结果之后,说服别人并不难。
晚点:这就是你们说的拆掉 Language?
刘先明:拆掉的是推理链路中间的语言翻译:原来模型输出结果要先变成 language tokens [3] ,查表翻译成文字,再生成驾驶动作。普通人开车不需要先在脑子里把看到的东西翻译成一段话,这一步没有必要。
但语言没有从整个系统消失。输入端还需要语言,用户语音控车、意图理解都要用到语言模型。所以不是做了一个完全没有 language 的东西,拆掉的是中间那层翻译。
晚点:在原来的架构上继续喂更多数据,不拆 Language 不行吗?
刘先明:不行。模型中间不能有信息瓶颈,一旦产生,后面再增加数据量也不见得有好的效果。另外自动驾驶对实时性要求非常高,最终要权衡的是模型体量和推理延时。在有限车端算力下,参数量扩大十倍,推理就变慢,控车能力变差;但要想更好控车、更低延时,那模型体量要减小。
我们去年做了一个特别有意思的事,当时团队里不是所有人都信任这个方向,所以一开始用开源模型再加上 Action(动作)数据训了一套自动驾驶 VLA 模型后,有一天我们几个人偷偷把 Language 拆了,模型但还是用原来的名字,我们第一次上了最大数量的 GPU 来训练模型,GPU 变大,数据量变大变多,拆完训完发现效果挺好的。
晚点:那是 VLA 2.0 的雏形?当时花了多久做这件事?
刘先明:去年 5 月份,花了两三个星期。
晚点:拆掉了语言模块之后,训练数据的来源是不是也要跟着变?
刘先明:互联网上的文字数据是最多的,非常容易获得,信息量很大,可以快速把模型做起来。但做物理 AI,做机器人,做自动驾驶,更多数据来自于每天回传的车辆数据,从物理世界真实采集出来的。如果要做物理 AI,一定要把这部分数据弄好,训练方式一定要改过来。
晚点:机器人行业也有反思,减少大语言模型,直接做理解+生成一体化。小鹏二代 VLA 也受这个范式启发吗?
刘先明:这个思考可能是在不同的人群和领域中同时发生的。自动驾驶和机器人都属于物理 AI,面对的问题本质是一样的,都要与真实物理世界交互,处理非结构化的输入,输出连续而非离散的动作(车子的驾驶动作和机器人的行为动作)。拿掉 “语言” 这个思路很符合第一性原理,它简单、直接,是更极致的端到端,也很像人类开车和日常生活中很多不用语言但暗含智能的 “直觉行为”。
晚点:但我们听说这版 VLA 2.0 发布推迟了两个月?
刘先明:本来定在 1 月底开始冻结版本、2 月全量推送。1 月初有一天小鹏给我打电话,他说 “现在这样不行,你们每天都在修下限,模型上限完全没有释放出来,再给你两个月的时间,你会做成什么样?” 我说 “老板,你要再给两个月时间,我马上把结构给换了”。他说 “好”。于是调整到 3 月份推送。
第二天我们换了模型结构重新开始训练。有人说我们交作业总是很迟,因为我们看到更好的可能性。如果 2 月份我们真的发了一版,可能现在天天在修 bug。
晚点:如果觉得可以做得更好,为什么不主动提延迟?
刘先明:一个是当时版本确实可以上线。另一个原因是模型、AI 发展是永远往前进,我们现在理论上每天能更新四个版本。但从公司商业决策来看,要考虑产品型谱、上市节奏、财务状况来决定什么时候产出结果。
晚点:多给 2 个月,模型怎么做到显著进步?
刘先明:我们的核心优势是迭代速度,而不是做一个非常 fancy、跨时代的模型结构。现在每家的 AI 模型结构都极其相似和简单,越复杂的东西越不好用。
我们有一套体系可以加快迭代速度,速度越快才能发现新问题、尝试新结构。对很多团队来说,最大的问题不是不知道下个结构用什么,而是没时间去试。我们在做一件没人知道正确答案的事,只能猜或者只能靠经验判断,没有人百分百准确。我们每天都在不停迭代,把过去的结论推翻重新来。
晚点:马斯克也说过,创新来自于速度的迭代。
刘先明:特别明显,现在模型收敛速度越来越快,不是因为更多工程师加入,而是我们的体系自动化程度越来越高。
晚点:这条路总结下来就是 Data Scaling [5] ?
刘先明:不仅是 Data Scaling。首先 AI 一定是极致简化,不像过去做语音,得先有个模型做语音识别,再做语言处理,最后做语音生成。现在大家都是原生多模态模型,端到端,结构一定要简单。第二,Scaling 不仅体现在数据,还体现在模型,是体系层级的 Scaling。有任何短板,这事都做不成,绝不是一两天、半年就能追得上来。
晚点:现在车端模型的参数有多大?
刘先明:差不多 ****。
晚点:模型越大越好吗?
刘先明:没有绝对说法,至少体量上越大越好,但越大的模型需要越多数据。收集数据对我们来说不是难事,尤其是二代 VLA 推出去后,会有大量影子模式数据回来。真正难的是,如何在车端芯片塞入更大的模型。
晚点:现在数据有多大的量级?
刘先明:整体数据存储量 50 PB 左右。
晚点:总体来说,数据规模越大对于模型性能越有利?
刘先明:高质量、有用的数据规模越大越有利。我们一开始也遇到过车在直行场景开得很好,一掉头就废的情况。原因是 90% 以上的数据都是空旷道路直行。数据单纯多没有意义,得找到有用数据。
晚点:找几百个熟练的专车司机,让他们全国到处开,把他们的数据收集下来,这个方式行得通吗?
刘先明:行不通。200 个、2 万个司机,跟上百万个司机完全不一样。200 个司机能覆盖多少场景?有段时间,我们碰到最奇葩的数据采集案例是近距离绕行,一个司机停在前面,另一个人绕过,再停在前面,再绕过去。
我们也想过请司机,但这样的数据没有意义,因为都不是来自于真实场景。数据收集要像是真实世界采样器,采样得越密集、越随机,量足够大,才可能逼近真实世界场景,模型才具有泛化性,才能解决之前没见过的问题。
晚点:我们体验过好几家智驾,一个共同感受是前 10 分钟效果惊艳,越到后面越容易唯唯诺诺,这是为什么?
刘先明:第一可能是模型的容量本身受限,它会限制使用场景,还没办法泛化到很大的落地场景。另一个原因是数据,数据是个新的问题。怎么去挖掘高质量数据?
Meta 做一个事情叫做 data curation [8] (数据治理),这本身就是目前 AI 里面最难的问题,怎么发现一个数据不在你的训练样本里面,是一个 outlier [9](异常值),它还不是一个坏数据。
这里也有一个悖论。首先你发现它,一定是因为它不在大规模数据里,第二,它如果在小规模里面,它很有可能是 outlier,是 “脏数据”,可能会被踢掉。怎么解决问题?其实有一套方法,但需要时间,需要不停地扩充数据的边缘。
晚点:你说 VLA 世界模型也有 CoT [6] 思维链,就像 chatbot 的思考过程,换到自动驾驶领域,模型是怎么做思维链推理的?
刘先明:大家觉得 CoT 思维链很聪明,核心是啥?Scaling law [4] 有两个维度,一个是 training time scaling [7] ,训练时扩展,即训练阶段投入更多算力,让模型变强;另一个是 test-time scaling,测试时扩展,就是推理时消耗多少算力,投入更多算力,通常能得到更好的结果。
CoT 的过程是:生成一个 token ,作为输入,再重新生成下个 token ,不停产生中间的结果,这是个计算过程。CoT 还可以做很多采样,有随机性采样的话,就可以做强化学习,探索不同的解决方案,给出最好结果。
视觉 CoT 的本质就是一个 test-time scaling ,给更多计算时间,产生更好的推理结果。车端做推理时,只是在训练过程中,将中间结果可视化出来,我们也想知道它脑子里到底在想什么,于是通过世界模型生成未来一段时间内的道路环境和自车行为,预测模型下一步动作,我们称之为 “脑内小剧场”,剧场生成的画面可以是鸟瞰图,也可以是对应不同位置摄像头的视频画面。我们发现这个玩意儿挺有用的。
“智驾团队花了最多钱,不想用规则交差”
晚点:如果能更早意识到第一代 VLA 中语言的限制,早点拆掉,二代 VLA 是不是更快出来?
刘先明:也不会。模型训练跟交响乐协奏曲一样,多个要素一起发展。如果连足够的行车数据都没有,就想拆掉 Language,其实搞不定;就算有足够数据,有了更好的模型,如果训练集群的稳定性和效率不高,也搞不定。把节奏排好,模型、数据、Infra [10](基础设施)都没有短板,花多大钱办多大事。
晚点:规则阶段积累的东西还能派上用场吗?
刘先明:其实不多,有些东西甚至应该尽早拿掉。没有人告诉你 VLA 具体怎么做,只有大概思路,去想工程应该怎么匹配,怎么用最少时间、不大改动系统的情况下把它做出来,再逐渐拆分中间模块。
晚点:听起来很顺滑,但你们实际上在二代 VLA 测试阶段遇到了很多问题。
刘先明:对,当时有个决定比较艰难。二代 VLA 模型测试后遇到各种问题,比如撞路沿子或者不居中。这时候要不要借助规则把它修正一下?有段时间整个团队都很挣扎,因为只要上了规则,系统就变味儿了,就拆不掉了。
晚点:为什么会拆不掉?
刘先明:模型还没量产前,应该尽量让它暴露问题。规则能修,但我想从数据角度解决模型问题。那时候测试一周,新问题越来越多,团队也很困惑,问题解得完吗?只要上一点规则后处理,事情就搞定了。但是一旦写了规则,所有问题都会被盖住,丧失发现问题的能力。不把规则拆干净,就像在修一条到不了未来的路。
晚点:小鹏现在是 0 规则、0 超级对齐吗?
刘先明:我们没有规则。端到端时代可以加规则,大家都是这么做的,但模型时代依靠数据规模驱动,如果再加规则,模型的上限最终肯定会被规则限制住。加规则,也许短期可以攒出一个还不错的版本,但可能到 8 月份完成不了任务,我还是要去裸跑的(笑),其他厂商也一定很快追上来。
举个例子,模型走错路,确实可以搭载车道级导航,在还剩 300 米右转时强行变道,但一旦上了,会发现后面导航变成了拐杖,只能解决一时的问题。我们不想重度依赖导航信息,因为我们做的是全球化产品,欧洲等地区没有图商提供高清地图信息的。
这是一个选择,是通过技术手段解决,还是用一个 shortcut(捷径)搞定,代价是后面没法继续。我们希望达到的状态是,限制我们的只有自己的迭代速度。
晚点:这里的技术手段是指强化学习?
刘先明:要解决走错路的问题,最好的办法是强化学习。在汇入汇出这种场景可以使用强化学习,加上适当的 reward(奖励),让模型学会在什么情况下该做什么事情。闯红灯也有几种不同的办法。一种是加规则,用传统的技术栈 2D 模型检测,检测到红灯就一脚摁死刹停,但会带来一个问题,整个技术栈会过分依赖于已有的规则。
晚点:加或者不加规则,到底是如何影响模型工作的?
刘先明:不管是端到端模型还是 VLA 模型,核心是有一些输入,经过加工之后要去输出。比如我们认为输出就是一个车要规划几秒的轨迹,轨迹之间的时间间隔是多少?如果横向最大的范围是 20 米,纵向是 80 米,把这个范围离散化,所有可能的轨迹点组合就构成了一个极大的搜索空间。
传统方法不管是 Monte Carlo [11] (蒙特卡洛方法)还是非凸优化,核心都是砍掉搜索空间,把它砍到可计算的范围之内。在算力和模型不足的情况下,对搜索空间做大幅的缩减。
AI 模型反过来。为什么我们觉得现在 AI 聪明、能做很多事情?因为它的参数量直接决定了它的输出空间。如果有几个 Billion(十亿)参数的模型,比如 OpenAI 220B 的模型,理论上它可以探索 220B 这么大规模的空间,这是足够大的搜索空间了。所以要解决问题很简单,就是让你的搜索空间足够大。
过去我们做了很多平衡,比如对搜索空间不做太多限制,但把时间和空间分开。横向很丝滑,我们一般叫做空间;纵向一般是用速度和加速来控制,我们一般叫做时间。很多传统方法即使到端到端的时代也是这样——先输出一个横向轨迹,至于什么时间点到这个位置,可能是单独用规则去算的。那它就会一脚刹死,因为规则没有这么大的浮动空间。
我们则希望通过一个足够大的模型,能够探索这么大的搜索空间。为了让整个模型不会过拟合到某些特定的模式上,就需要很多训练数据。有了更多的训练数据,就有一个很大的模型,但又不希望模型是个倒金字塔——输入的信息量很少,一直在做插值升维,其实信息量本身没有上升。于是我们就让整个模型尽量变成一个通畅的结构,通畅的结构要求输入的信息量足够大。
这是为什么我们不用激光雷达,因为激光雷达给我们的信息量太小了,而且频率又很低,整个系统会拖慢到 10 赫兹。它还有光栅的闪变,光栅的处理时间一般是 80 到 100 毫秒。
最近小鹏第二代 VLA 从喀什到上海横穿中国,全程 5000 公里,纯视觉方案经历沙尘暴、雨雪等天气和场景,单次最长 0 接管里程 1360 公里,这已经能说明问题。
把所有东西加在一块,整个逻辑就非常简单:找到一个给你提供高密度信息输入的传感器配置,一个足够强大的模型,和一个能够端到端去训练的方式。
晚点:什么样的智驾体验可以称得上好?
刘先明:智驾体验过于主观,没有特别好的评价标准。过去大家一直用接管 MPI、MPCI 来评价,但如果加规则或者限制,是很容易做到零接管的。
我一直说,自动驾驶是白开水,能让坐在后座的用户忘掉驾驶这件事。
我们内部评价时会尽量排除主观因素,用比较客观的 CCES: compliance-合规,comfort-舒适,efficiency-效率,safety-安全。其中,安全最重要,有时候为了安全,不得不牺牲一些效率和舒适性,但我们不想就此放弃效率和舒适,就看怎么平衡。
晚点:这形成共识很难吗?
刘先明:很难,因为行业很卷。想出圈,一定要挑出不同的特质,去让别人注意到自己。
晚点:你会怎么做?
刘先明:没有固定答案。最好的办法是,在技术架构和技术路线上,不能有短期的 trade-off(妥协),一定要做具备可拓展性、向上空间足够大的东西。另外,基础能力要足够强,才可以在不同风格上做 trade-off。作为技术一号位,我能做的就是告诉大家,不要去追求某些短期目标而去欠下一些技术债。
晚点:哪些算 trade-off 呢?
刘先明:比如为了舒适性,加一些 “过路口减速” 规则,或者在某些特定情况给模型加兜底。
晚点:你这些说的都挺好的。但我们还是想知道,去年天天测、天天出新问题的时候,团队还信这条技术路线吗?
刘先明:有一段时间士气比较惨,测试结果很惨,天天我都去看。那时候真不敢回国。
那段时间压力很大,团队确实有不同的声音。但顶过压力后,发现问题的收敛速度非常快。问题充分暴露后,用比较系统的方法去修,AI 修问题不是一个个修,是一坨一坨修的。
有时候加了一个数据解决一个问题,另外一坨不相关的问题也解了。这个事情确定之后,系统就好干了,大家都认同方向了。以前系统会存在很多模块兜底,长得奇形怪状特别乱,没法优化,现在系统可以简化很多。
晚点:是前面说的去年 5 月份那时候吗?
刘先明:差不多,那时候真不敢回国。我本来 5 月回国时应该给大师兄测 demo 的,结果到约定时间都没找他。一直等到我坐上飞美国的飞机,才给他发消息,说下次回来一定让你坐 demo。
晚点:确认一下,你是上了飞机才告诉他的?
刘先明:我想的是,什么时候做出来了什么时候再回国。
晚点:我要是交不出稿,可能也消失。
刘先明:但是你交不出稿你消失的话,会不会有人问你?
晚点:当然会啊。当时何小鹏真没找过你?
刘先明:大师兄对我真的挺宽容,他不问我。有时候他在飞书上跟我发消息,打个招呼,然后不管了。
晚点:做不出来的时候你忐忑吗?
刘先明:大师兄经常开玩笑说我 “花了全公司最多的钱,但是发现分文不挣”。作为管理者,我肯定有压力。一家公司能健康地发展下去,不能只投入,要讲产出的,否则游戏转不下去。
但如果你在做的事关系到公司的未来命运或者整个商业化进程,没有压力是不可能的,这一点上,全公司压力最大的肯定是大师兄。有的时候他也会跟我吐槽,说他自己很痛苦。
在我这一层,他其实一直极力保护我。有时候一个会议我刚进门,他会说 “你走吧,这会不需要你,回去干活。” 今天车圈如此卷,半年做不出来东西,可能很多一号位就被干掉了。我做这个事情这么长时间,资源一直源源不断的投入进来,老板并没有因为短暂的体验不好就放弃,或者换一条路走。这种信任和笃定,不太能在别的地方找到。
大概去年 6 月份,我们进展还是很快的,所以敢回国了。我在回来的航班上看一个版本的实验结果,觉得不错,落地之后赶紧去测试,天天追着大师兄坐 demo,从北京追到上海。大师兄问我为什么不去广州测,我说广州跑不下来,太难了。
晚点:小鹏对你的管理风格是偏向宽容还是严格?
刘先明:既宽容又严厉。对于结果很宽容,不急功近利,不短视。正是有这种对于研究和技术突破的宽容,才有了今天的技术突破。很多 CEO 嘴上喊的都是技术突破和投入,但忍不了半年。这是我最欣赏和佩服大师兄的地方。他对于原则很严厉,对就是对,错就是错。不能浪费资源,不能浑水摸鱼。这也是小鹏能逐渐走得更快更稳的原因。
晚点:你什么时候知道你花了整个公司最多的钱?
刘先明:一直都知道。每年都会跟小鹏和财务去审预算,太可怕了。
晚点:所以是多少?
刘先明:这不能告诉你们。
晚点:公开能查到的 2025 年是 45 亿元 AI 研发投入,是这个数字吗?
刘先明:我去要预算是 2024 年的事情。2025 年已经是公开数字了。
晚点:刚到小鹏时觉得你自己能花多少钱?
刘先明:我刚来的时候,给老板写一个方案,要预算,然后他问我说这些够吗?我说不太够,于是我们重新写了一个版本叫 “格局打开版”,预算直接 x2,大师兄直接批了。
不过,在资源不受限的情况下,很多事情过于理想化;而在人、时间,预算都受限的情况下,你不得不去想,怎么让庞大的组织变得更高效;在哪些事情上做取舍,哪些事情让你有更大赢面。
题图来源:小鹏汽车
注释:
[1] VLA:Visual-Language-Action 的缩写,即 “视觉—语言—动作模型”,指将视觉输入、语言理解与动作输出结合在一起的模型。文中所说小鹏 VLA 2.0,核心变化是减少中间语言翻译环节,让模型更直接地从感知走向动作输出
[2] VLM:Vision-Language Model 的缩写,即 “视觉—语言模型”,通常用于处理图像、视频与文本之间的联合理解任务。
[3] Language / language token:文中指模型推理过程中的语言表征。token 是大模型处理信息时使用的基本单位,可理解为文本被切分后的最小计算单元之一。
[4] Scaling Law:规模法则,指模型能力通常会随着参数规模、训练数据量和算力投入的增长而提升。
[5] Data Scaling:通过扩大数据规模、提升数据质量来增强模型能力的方法。
[6] CoT:Chain of Thought 的缩写,常译为 “链式推理” 或 “思维链”,指模型通过生成中间推理步骤来提升结果质量。
[7] training time scaling / test-time scaling:前者指在训练阶段增加算力、数据和训练资源;后者指在推理阶段增加计算量,以换取更好的结果。
[8] data curation:数据筛选、数据治理,指从海量数据中识别、清洗、组织出对训练真正有价值的数据。
[9] outlier:异常值,指明显偏离多数样本分布的数据。它未必是错误数据,但往往更难处理。
[10] Infra:infrastructure 的缩写,即 “基础设施”。在本文语境里,主要指训练集群、数据系统、推理部署等支撑模型研发和运行的底层能力。
[11] Monte Carlo:蒙特卡洛方法,一类基于随机采样的统计模拟方法,常用于复杂系统的求解与优化。
[12] profiling / dashboard:profiling 指性能分析,用于定位系统运行瓶颈;dashboard 指数据看板或可视化面板,用于监测和展示关键指标。
[13] DARPA / CMU:DARPA 是美国国防高级研究计划局,曾举办多届无人驾驶挑战赛;CMU 是卡内基梅隆大学,其机器人研究长期处于全球前沿。
精彩评论