特斯拉自动驾驶在中国为何不如小鹏?(上)

我们有信心,在今年年内推出来的城市NGP效果,会相当程度上比FSD的效果要好。”3月26日,何小鹏在百人会论坛的采访上向《电动汽车观察家》明确表示,$小鹏汽车(XPEV)$ 小鹏汽车将于2026年开始向无人驾驶过渡的目标。

此时距离何小鹏喊话特斯拉创始人马斯克——“(要)在中国的自动驾驶领域打得(特斯拉)找不着东”刚过去16个月。

何小鹏2020年社交媒体发言

当然$特斯拉(TSLA)$ 特斯拉也没闲着。

4月,马斯克表示可实现“完全自动驾驶能力”的FSD测试版已搭载在超10万辆特斯拉车型上。近日发布的特斯拉2021年影响力报告表示,美国所有汽车相比于使用Autopilot自动辅助驾驶的特斯拉汽车发生事故的概率要高8倍。马斯克表示,这项数据将趋向于超过10倍。

但在中国,由于开放功能过少,昂贵的FSD对特斯拉车主来说品牌标签的意义远大于使用价值。

2020年的小鹏科技日上,一段小鹏NPG/特斯拉NoA导航领航驾驶辅助系统的对比实验中,小鹏P7表现稳定,特斯拉Model3则有了一系列无故、违规变道和错误驶出的情况发生。

这一表现也与中国媒体屡次的对比测试结果一致:在北美开始测试完全自动驾驶的特斯拉,在中国结构化道路上仍水土不服。

晚七年出发的小鹏,现在的自动驾驶能力能否与特斯拉一较高下?何小鹏说要赶超特斯拉,是在吹牛吗?

更重要的是,以特斯拉和小鹏为代表的纯视觉和感知融合两大技术路线,在量产自动驾驶这一目标下的差异怎样,前景又如何?


01

在中国,特斯拉比小鹏“差”在哪儿?

本质上,如今的纯视觉感知的特斯拉车型,和依靠多传感器融合的小鹏车型已是运行模式大相径庭的两种“生物”,且“栖息地”也大为不同。

1.1 | 纯视觉VS多传感器融合

特斯拉FSD完全靠“看”。车身四周的8枚摄像头,以每个摄像头36帧每秒的速率采集,分辨率为1280×960、12-Bit的RAW格式图像。

原始图像数据直接进入名为“HydraNets(九头蛇)”的单一纯视觉神经网络算法中,进行图像拼接、物体分类、目标跟踪、引入时间序列的在线标定、视觉SLAM(定位与地图构建)等一系列能让机器明白“我拍的是什么”,最终形成一段路况时空的“向量空间”——对真实物理世界的虚拟映射。

最困难的是建立一个准确的向量空间,”马斯克表示,“一旦有了准确的向量空间,控制问题就类似于电子游戏。

向量空间,特斯拉AI DAY 2021年8月

“向量空间”是所有L3级及以上高阶驾驶辅助系统的必要条件,区别在于如何获取(感知)真实世界的数据。

从P7开始,XPILOT智能驾驶辅助系统(下称XPILOT)形成了“小鹏风格”的融合感知系统:前视三目摄像头+翼子板侧后视摄像头+反光镜前视摄像头+后视摄像头+五个毫米波雷达+四个环视摄像头+十二个超声波雷达+高精地图+高精定位。

从P5开始,XPILOT又引入了激光雷达。

小鹏P5将适用城市NGP

雷达提供直接的速度、深度、距离和部分材质信息,其中激光雷达能够直接对现实场景进行3D点云的虚拟建模;摄像头则对行人、交通标志标线等多细节进行感知。之后,通过融合算法模式,将不同传感器的原始数据或感知结果进行4D一致化的融合,由此建立向量空间。

两套方案各有优劣。

视觉方案具有极大的成本优势。单目摄像头成本仅在150-600 元之间,较为复杂的三目摄像头成本也通常在1000 元以内。

特斯拉的8个摄像头成本在200美元(1400元)之内,加上自研的自动驾驶芯片,总成本不到1万元人民币。

多传感器融合方案在摄像头之外,毫米波雷达成本在50美元左右、半固态激光雷达普遍在几百美元,以及高精地图的费用。

2019年,高德地图宣布100元/车/年的标准化高精地图合作价格。但头豹研究院在报告中认为,除基础服务外,高精地图图商还收取辅助自动驾驶服务费,行业价格或为700-800元/车/年。

成本是技术量产规模的决定性因素,但技术的可靠性和可实现性更加重要。

距离/深度/速度探测是视觉方案的劣势之一,要通过2D的图像来构建3D+时间的向量空间,中间不但存在2D“翻译”到3D所带来的延迟问题,而且对图像处理算法、AI学习所用的场景数量/质量,和硬件算力都要求极高。

例如,去年特斯拉取消毫米波雷达之后,FSD测试版的自动转向功能设置了75 英里/小时(120公里/小时)的最高速度和最少三辆车的跟车距离。之后两个月,特斯拉将限速提高至80英里/小时(128公里/小时),跟车距离降低到两个车身长度。

多传感器方案则拥有雷达直接提供的距离/深度/速度数据,以及高精地图提供超视距的先验信息,以及高精定位模块提供的分米甚至厘米级定位能力。

“(由此)帮助AI理解,决策和规划接下来的动作,为基于其他传感器的感知能力提供辅助和冗余的信息来源。”小鹏汽车自动驾驶副总裁吴新宙向《电动汽车观察家》表示。

自动驾驶各级别对应像素数、数据量以及算力需求(估计值)《中金 | AI十年展望》

获得足够的冗余,是L4级自动驾驶公司和小鹏等公司,选择多传感器融合而非纯视觉路线的主要原因。

目前,由于纯视觉没有对速度、加速度的直接测量能力,幽灵刹车会是长期难以根治的问题。

未来,对高阶自动驾驶系统所需要的预期功能安全和功能安全来说,防止单一系统失效,收窄失效预期冗余是必须的,“目前纯视觉系统很难达到高阶自动驾驶所需的安全需求。”一位自动驾驶领域专家向《电动汽车观察家》表示。

1.2 美国的特斯拉与中国的小鹏

“栖息地”的不同进一步加大了两条技术路线的落地表现

中国交通环境的复杂程度远超美国,需要大量视距之外的辅助信息提供给决策系统,才能顺利完成通行,也导致仅依赖实时、纯视觉感知系统,很难在中国落地

中、美最复杂的立交桥系统:美国亚特兰大(左)与中国重庆

例如,即使是属于简单场景的封闭高速路,中国相比美国路弯道更多、曲率更大,甚至有两圈叠套的路段,能“一眼看到”的路线非常短暂;中国的高速路还有更长的进出匝道,和更频繁变换的虚实车道线,甚至本不应出现在封闭路上的行人。

部分企业在实践中发现,由于交通参与者通行规范程度的差异,自动驾驶系统在美国过路口比中国“容易”近10倍。

不使用高精地图,缺乏先验信息,完全依靠视觉感知,神经网络占比超过98%的FSD,需要海量的高质量、差异性数据来进化。

因此,在北美数据的“喂养”下,FSD测试版实现了非结构化路段的部分自动驾驶能力,但特斯拉在中国还无法顺畅跑通高速路段——目前缺乏使用中国场景数据的能力。

受国家数据安全要求,特斯拉在华数据不能“出国”,这不仅意味着数据本身要存储在中国的服务器中,国外IP也不能通过网络访问,甚至在国内读取数据的人也有严格的国籍背景限制。

这意味着特斯拉要适配中国场景需要在中国“重建”组织。

首先是在中国的数据和研发中心。“负责数据采集和模型训练,以及产品经理等一系列配套组织,百人以上的团队。“一位新造车势力的大数据工程师向《电动汽车观察家》表示。

还需要重新构建工作流程。因为美国的数据同样不能进中国,所以只能从美国传递模型参数,而不能传递数据本身,“这对模型的训练工作会带来很大影响,需要重新在中国搭建训练用的pipeline(data pipeline:数据的采集、处理、脱敏、清洗、标注、分类和训练流程)。”上述大数据工程师表示,这又意味着数百甚至上千人的流程团队。

《电动汽车观察家》在采访中了解到,2021年下半年,特斯拉已经开始在中国招聘自动驾驶研发的相关人员,但规模和用途仍不得而知。

而且,像所有跨国组织一样,海外分支机构从来不只是钱和人的问题。

“即使所有的研发导入,特斯拉中国和美国研发团队的融合也不一定那么顺利。” Thoughtworks物联网业务线总经理朱晨向《电动汽车观察家》表示:国际研发机构最痛苦的地方在于分支机构和总部的想法不一样。例如中国的研发团队根据中国国情做出一些特异化的判断,提交到总部后是否愿意批准。“到底用谁的代码,以及由此产生的一系列问题。小鹏则无需担心这些问题。”

XPILOT诞生之初,便是为中国场景服务的。

小鹏采用以高精地图为纲的决策逻辑,利用高精地图和多传感器融合,在感知和决策算法难度相对较低的情况下实现了高速导航领航这一L3级的高级别智能驾驶辅助能力的落地。

而且中国团队还能够针对本地场景进行专门的优化,由此在体验端超越了特斯拉NoA的在华表现。

据悉,小鹏对识别加塞、大货车等“中国特色”场景都进行了感知方面的优化:调整传感器的布局和感知范围;向XP的感知模型导入更多针对性场景进行训练。

针对高精地图“鲜度”不够的劣势,小鹏进行了地图系统的增强:对视觉感知到与高精地图不符的新路况,建模补充进地图;通过增强算法提升高精地图的精确性,以更适应道路起伏非常大的场景;通过技术将高精地图未拍到的细节部补完等等。

值得注意的是,对高精地图进行增强并不只是一个技术问题

2021年,小鹏出资2.5亿元收购江苏智途科技有限公司,获得了稀缺的甲级地图资质。不仅使“补完”地图名正言顺,而且还获得了自建高精地图的入场券。

小鹏也是首家取得该资质的中国新造车势力。


02

算法分歧

“每一次硬件的大幅改变,也会带来软件算法的大幅改变。”地平线创始人余凯在演讲中表示。

感知硬件方案带来的差异是小鹏与特斯拉现阶段“分歧”的表象,更深层次的差异来自于不同感知路线背后“思维模式”的差别——在更远的未来决定量产自动驾驶这一目标能否最终落地。

“思维模式”即自动驾驶系统的软件算法。主要分为感知、决策和控制三部分。

  • 感知算法追求解决传感器“感到”的东西是什么的问题,通过对感知到的物体进行分类、标注、理解,最终在车端建立起与现实路况高度相似的向量空间;
  • 决策算法则需要综合考虑导航路线、道路情况、其他交通参与者的动作意图,以及安全、效率、舒适等行驶标准,在向量空间中先求解出可行空间(凸空间),然后利用优化的方法在可行空间内优化求解,输出最终轨迹。
  • 控制部分则负责高效协同底盘系统的各个执行件,以便忠实执行决策算法的“决定”。

《电动汽车观察家》在采访中了解到,目前的高阶驾驶辅助及自动驾驶系统当中,感知算法绝大多数已采用AI神经网络进行感知,决策算法中也已在前端使用神经网络进行搜索和选项收敛,后端采用逻辑判断的算法。

那么,在纯视觉和多传感器的硬件方案背后,软件算法的分歧有多大?

2.1 | 感知算法对比

感知算法采用神经网络为主的AI模式已是当下的主流模式。

时间回退至2020年8月,马斯克首次表示特斯拉正在重写FSD的基础架构。一年之后的AI DAY上,特斯拉宣布感知算法模型中CNN卷积神经网络的计算量占比达到了98%,并通过RNN(循环神经网络)加入了时间序列。通过利用具备出色算法并行性的Transformer融合不同摄像头数据。

直观来看,就是特斯拉车上8个摄像头的原始数据进入感知算法模型,模型输出时已是时空一致的结果。最近马斯克接受采访时表示,特斯拉已经完成了从视觉到向量空间的完整映射。

目前公开的信息中,特斯拉的感知算法模型包含至少48个具体的神经网络结构,可同时执行超过1000个不同的识别、预测任务,进行一次充分训练所需要的周期是7万GPU小时。

相比之下,采用多传感器融合的小鹏则要在完成视觉感知算法的基础上,再走一步。

目前,小鹏P5搭载摄像头、毫米波雷达、超声波雷达、激光雷达和高精地图构成的传感器方案。其中,雷达的感知算法相对简单,高精地图可提供超时空的先验信息。

多传感器数据融合过程 《中金 | AI十年展望》

真正的难度在于通过算法模型,将视觉、雷达和高精地图的信息进行融合建立向量空间。

由于不同传感器的探测频率、信息类型和精度都各有不同,融合算法模型接收到的是时间不一致、信息不一致、甚至“样子”都不一致的传感器信息,要将其整合成为时空一致的向量空间,难度可想而知。

而且,相比于只靠“看”、信息一致的纯视觉算法,多传感器加高精地图的方案还存在“信谁”这样的选择题——“置信”问题。

有专家向《电动汽车观察家》表示,感知融合系统的“置信”问题,目前也主要依靠在仿真和真实路况中的第三方数据进行验证。

小鹏处理的“置信”问题,不是一概而论的。在高速NGP阶段,小鹏采用高精地图为纲的策略,进入城市NGP阶段,则将采用视觉感知为主的方案。

“在城市NGP中,高精地图仍是非常重要的输入。但是,由于激光雷达的存在和视觉感知能力的快速提升,我们对于各种场景能够处理得更加安全和自然,在地图的边界或是数据出现错漏的时候,能够具备更强大的容错能力。”吴新宙向《电动汽车观察家》表示,“(随着体系能力的建设),我们有信心赶上甚至超越特斯拉的视觉能力。”

2.2 | 纯视觉的“易”与多传感器融合的“难”

在视觉能力上追上特斯拉,从理论层面来看并不是一句大话。

基于图像识别的视觉感知神经网络拥有“悠久”的历史,也由此积累了众多简洁高效的开源算法。

这是特斯拉敢于公开其感知算法模型逻辑的原因所在,也成为小鹏要在视觉能力方面赶上,甚至超越特斯拉的基础。

从目前的结果来看,XPILOT和FSD是目前量产自动驾驶系统中,唯二布局侧方(A柱)视角摄像头的车企。原因便在于,将侧方图像与广角的前视摄像头的图像进行拼接融合的算法,有较高的门槛,尤其是在量产车型上。

做好视觉感知算法尤为重要。《电动汽车观察家》采访的专家普遍认为,视觉感知仍将是未来自动驾驶系统的核心感知方案。

但为何还要做多传感器融合路线?背后的核心是对反应速度和安全冗余的极致追求。

随着摄像头能力不断提升,视觉感知在应对恶劣天气和路况的能力方面不断进步。但由于始终存在2D到3D的“翻译”过程,以及由此带来的1秒左右的延迟,这对行驶中的汽车来说,有时是致命的。

特斯拉目前已经通过底层软件改写和系统整合,去掉了摄像头为适应人眼观看而进行的图像预处理(LSP)功能,直接将原始信息传递给模型,由此减少8个摄像头共计13毫秒的延迟。

雷达则能直接给出距离/深度/速度信息,而且多传感器的数据可以相互“查漏补缺”。

在P7上形成了自己的感知架构之后,小鹏在P5上应用激光雷达,又在G9上将此前的前视线三目摄像头换成了双目摄像头——1个窄视+1个鱼眼。

(随着)XPILOT 4.0的能力更强,对摄像头分辨率的要求也在提升,因此该摄像头是在目前三目摄像头分辨率无法满足需求的背景下,实现更高分辨率的下一代产品。”吴新宙对此解释道。

问题在于,目前“市面”上多传感器融合的开源算法较少。

因此,走多传感器融合路线,其融合算法将更依赖于各家自研、验证和迭代,期间必将形成各自不同的风格,但也缺少像视觉感知“全世界多领域一起加速”的优势。

而且,目前多传感器融合路线将导致车企与供应商强绑定。

与摄像头拥有标准的数据格式和通用数据接口不同,雷达和高精地图都还是“非标品”。激光雷达还存在机械、固态、半固态的路线之争,数据格式和接口尚未形成业内统一的标准。高精地图也因各家图商不同,在数据标定方式、精度等方面有所差异。

由此,尽管车企普遍追求软硬解耦,但事实上在一些具有特殊性的传感器领域,换供应商便意味着对算法模型的改变。也导致多传感器融合路线的车企在供应商选择方面更为谨慎,不仅建立采购关系,甚至不少还建立了投资、共同研发的深度合作关系。

2.3 | 更难的在于决策算法

解决“感到的是什么”,建立向量空间还只是开始。

AI技术在深度学习的加持下感知能力不断增长,但仍欠缺“思考”能力:处理如条件概率、因果等复杂关系的能力,完成推理推断的任务。

这样的能力,在自动驾驶落地过程中,事关生死。

2018年,Uber的测试车辆出现了全球首例致死事故。美国官方报告显示,车辆在事故发生前6秒观察到了“障碍物”,在前1.3秒判断出是自行车,需要采取紧急刹车。但“为了降低汽车发生不稳定行为(舒适性不足)的可能性”,自动紧急刹车未启动,而采取缓慢刹车,加之安全员走神,最终导致事故发生。

这一案例充分显示了决策系统的重要性,尤其是在路况复杂,充满了博弈场景的城市路况中。

通用旗下面向L4级的自动驾驶技术公司——Cruise,在去年的技术日上给出了好决策系统的定义:及时性;交互决策(对其他交通参与者与车辆未来行动及产生的影响进行考虑);可靠性和可重复性(能够在相同场景做出相同的决策),由此输出安全、高效,老司机般的乘坐体验。

特斯拉在此前的AI DAY上明确了其决策系统的标准是安全、舒适、效率;

吴新宙向《电动汽车观察家》介绍,XPILOT在难度更高的城市场景中的决策要素为:安全、可用性,以及好用性。

标准类似,但是要实现老司机般的操控表现却非易事。

在低速或简单场景下,决策算法会根据感知数据规划出一条无碰撞的安全路径,车辆按照指定路线运动。

但复杂的交通流和场景路况中,常会出现规划轨迹跳变、碰撞等问题。核心是由于决策算法对障碍物未来行为的预见性不足,算法仅依靠当前时刻的感知数据进行局部、而非全局路况求解导致。

因此,当车辆处于陌生又复杂的场景中时,往往会反复紧急制动或出现危险动作,“安全、高效、舒适”的决策标准很难满足。

车辆进行自动驾驶时,一般一个交通场景中可能有上百个交通参与者与自动驾驶车辆发生交互,决策系统需要考虑场景中其他交通参与者未来的动作,投影预测的社会车各种行为,行成一个可行驶空间,然后搜索出轨迹。

其中,预测被认为是自动驾驶系统工程落地中最困难的一环。车辆不仅要了解自身与环境未来可能的各种动向,还要从无数可能中判断出最有可能的交通参与者行为。

为建立系统的预测能力,业内目前除不断地优化算法之外,还需要对AI在世界模型中进行自我监督学习。而特斯拉通过影子模式收集的、真实世界中海量的交通参与者行为,则成为FSD建立预测能力最好的教材。

去年的AI DAY上特斯拉展示过一个窄道会车的场景。自动驾驶车辆在开始时认为他车会继续行驶,因此靠右等待,发现他车也停下让行后,立刻前进了。

特斯拉自动驾驶车窄道通行案例,AI DAY

对此,一位自动驾驶规控工程师向《电动汽车观察家》表示,目前大多数自动驾驶公司无法处理这样的场景,往往会保守地选择停车让行,或与他车同起同停,造成碰撞风险。“但特斯拉可以很好的处理该场景,证明它的预测和决策配合非常好。”

即使有了“预测”,“搜索”也不容易。

自动驾驶车辆通常需要采样计算5000多条备选轨迹才能做出正确的决策。

但“时间不等车”,决策规划算法通常运行频率在10Hz-30Hz左右,即每30ms到100ms就需要计算一次,而在这么短的时间做出正确的决策是一个巨大的挑战。

特斯拉FSD目可在1.5ms搜索2500次,通过对备选轨迹综合评价后选择最优轨迹。

但这样的做法在人车混流、道路结构复杂的城市路况中往往会导致超算(超出计算平台的算力能力)。

为此特斯拉引入了MCTS框架(蒙特卡罗树搜索),相较传统搜索方式效率提升了100倍以上。

MCTS可较为有效地解决一些探索空间巨大的问题,例如一般的围棋算法都是基于MCTS实现的。苹果自动驾驶专利和谷歌的阿尔法狗都有采用该方法。

小鹏XPILOT道路交互

目前,小鹏尚未透露其决策算法所利用的模型类型。不过吴新宙向《电动汽车观察家》表示,在城市场景,由于交通参与者的不同和场景的复杂程度,对于预测、规划和控制有完全不一样的要求。所以,小鹏对定位、感知、融合能力是在高速场景的基础上做了大幅增强。

对于决策部分,我们引入了一套全新的架构,来满足城市NGP更高的要求。这部分架构也有非常强的反向兼容性,所以我们也期待未来在XPILOT 3.5上,我们的高速和停车场场景也能受益于这套新的架构,给用户更好的体验。

——未完 请看下篇——

# IPO情报局

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论21

  • 推荐
  • 最新
  • 我希望有勇气
    ·2022-05-14
    去看看别人对特斯拉,小鹏,蔚来,极克的ap测试吧,只有特斯拉能够全场像个老司机一样跑完全场,其他的中途面对急弯,会车都不得不退出ap好几次,这还不是fsd,如果是那就是降维打击了,雷达加摄像头不仅没有表现出来比特斯拉很安全的操控,反而在面对复杂一点的会车,转弯,行人就无法顺利进行,特斯拉在自动驾驶的确领先很多,不是你随便发个文,靠自己的猜想就能乱说
    回复
    举报
  • Julio堂
    ·2022-05-11
    特斯拉拿不到中国行驶数据的话,你小鹏不能成功进军海外也没有其他国家的行驶数据,即使进军海外能不能拿到数据你也懂的,长远来看别吹牛逼了你的自动驾驶能够达到特斯拉一半水平在中国就可以甩其他电动车友商18条街了
    回复
    举报
  • zack_zuti
    ·2022-05-10
    小鹏自己的人都不买他们的车,别吹了,没啥意思
    回复
    举报
  • 目前的小鹏是国内的第一名,电动车这一块,确实有实力跟特斯拉叫叫板
    回复
    举报
  • 宝宝金水_
    ·2022-05-10
    国内的新能源的造车三傻里面,抄袭特斯拉最多的就是小鹏了
    回复
    举报
  • 丹尼子
    ·2022-05-10
    尽情的吹吧!!!
    回复
    举报
  • 德迈metro
    ·2022-05-10
    那个会飞的汽车什么时候能量产?有点期待
    回复
    举报
  • 自动驾驶这一块,暂时来看想要赶超特斯拉还有不小的难度
    回复
    举报
  • 豆腐王中王
    ·2022-05-10
    我很看好小鹏,但是买股票的话,我还是喜欢特斯拉
    回复
    举报
  • 灌饼高手00
    ·2022-05-10
    吹牛是没有任何意义的,又当又立的感觉很是不好,不看好小鹏
    回复
    举报
  • 福斯特09
    ·2022-05-10
    有信心在今年年内推出来的城市NGP效果,会相当程度上比FSD的效果要好,走走看看,期待结果吧
    回复
    举报
  • 引入了一套全新的架构,来满足城市NGP更高的要求,保持期待吧
    回复
    举报
  • 这么好的文章竟然没有什么点赞的,很不科学呀
    回复
    举报
  • 迪士尼迪斯尼
    ·2022-05-10
    我只想知道,这样的小鹏股价会不会涨?
    回复
    举报
  • jammyXP
    ·2022-05-11
    是不是饿疯了,什么烂钱都恰
    回复
    举报
  • wh快乐投资
    ·2022-05-11
    这篇文章不错,转发给大家看
    回复
    举报
  • 大辽
    ·2022-05-11
    不如小鹏,真敢说啊。
    回复
    举报
  • 兔兔他爹
    ·2022-05-10
    小鹏给了多少钱?我时风农用车给三倍。
    回复
    举报
  • 北正峰
    ·2022-05-11
    hao
    回复
    举报
  • 辛德荃
    ·2022-05-10
    😀
    回复
    举报