对话任少卿:世界模型是自动驾驶与机器人的新范式

“AI发展,本质就这两件事”

一凡 整理自 凹非寺隔壁的副驾寺
量子位 | 公众号 QbitAI

任少卿的对话,是从最基本的一个智能驾驶使用场景开始的——

在北上广城市快速路的限时段公交车道,智能驾驶系统如何能像人类一样,限制的时间段避开,非限制时段高效利用?

在过去,AI系统会严格按照人类写好的规则驾驶。但现在,端到端自动驾驶模型的范式之下,手写规则的方法开始被剔除,意味着AI系统需要自己去学习“限时公交车道”的特殊路况和场景,这需要时间,也可能短期内无法直接满足需求。

所以是不是智能汽车业内业外,过于迷信“端到端”了?

自动驾驶作为一个综合工程,为什么要端到端?

端到端又为何会出现在此时此刻?其本质是什么?

对智能汽车研发和车圈变革又会带来怎样的影响?

上述问题,没有人比任少卿更有发言权了。他既是世界级AI科学家,深度学习经典成果ResNet作者之一,近十年来也躬身产业一线,见证和实践自动驾驶技术从研发到上车,当前是蔚来智能驾驶副总裁、蔚来自动驾驶研发的负责人。

图片

任少卿认为端到端是一种必然,类似造车会走向一体化的必然,有技术难度但不存在谁有独家秘籍,甚至“被强调太多了”……在他分享的四大关键技术要素中,模型只是第一点——数据、优化机制和功能体验,四位一体,缺一不可。

在他的视角里,AI也好,自动驾驶也好,这几年有变化,但本质没有变化。于是对于很多业内热议的具体问题,他都有着从本质出发的回答。

以下是对话实录:

聊端到端

量子位:端到端怎么识别公交车道,实现按时段规避和利用?

任少卿:方法肯定很多,但如果要特别精确地识别,可能还要学习怎么识别文字。

量子位:现在还不行?

任少卿:现在更多的是以历史的经验去看,历史的经验里可能噪声比较多。

什么叫噪声呢?现在的系统其实一部分是靠历史的经验,一部分是实际感知的结果。比如说旁边如果有个车进到公交车道了,那系统可能考虑是不是也可以开进去;那如果旁边的没有车走进公交车道,那系统就也不会进去。那其实按交通规则是不应该开进公交车道的, 那这就是噪声。

我觉得这确实是一个核心的点,怎么去精准地识别,这个是需要去解决的。

量子位:这两年大家都在聊端到端, 很多玩家All In进去。

假设没那么原教旨主义,就写一条规则,告诉系统什么时间能走公交车道,从而解决这个问题不是也挺好吗?为什么一定要把手写的规则都剔除掉?

任少卿:举个例子,比如说不同城市,北京(公交车道)可能相对来说还规则一些。大部分都是早上7点到 9 点,晚上5-7点在高峰期(不能走)。

再比如上海,上海延安路上是专门有一条给71路公交车行驶的车道的,在任何时间非71路是都不可以行驶的。而且这条车道还有专属的交通信号灯,可能信号灯长得都和普通信号灯不一样。

所以不同的城市对于“公交车道”是有各种各样的规则和场景的,而且如果今天这个规则变化了,那怎么弄?所以让工程师针对每一个场景去写一条规则得去搞,这个显然很难搞定。

其实这种案例非常非常多。那为什么原来大家都没考虑走端到端呢?这个和功能和场景都有关系。

比如三五年前,大家都在高速NOA的时候,场景比较简单。在高速上大部分的场景,就看前面三台车:

本车前面那台车,左边车道一台车,右边车道一台车,然后三辆车一起建模,写个规则。虽然也得写好几万行的代码,但是它毕竟场景简单。

那现在到了城区道路的领航辅助,还有我们NIOIN展示的、大家都在说的主动安全功能,那面对的是要处理各种各样的复杂场景,如果一个一个规则去写,这个显然非常难。从根本上来说,第一个是效率的问题,第二个是效果的问题。

我觉得更好更拟人地去应对全面的、复杂的场景,是自动驾驶要搞端到端的核心原因

如果我们跳出自动驾驶的领域来看这个事儿,走向端到端技术还有一个原因,就是大家要做更统一的东西。

其实只有自动驾驶领域的人才会说端到端和非端到端,别的AI应用领域好像大家都不怎么说。比如做语言模型的、做机器人的,大家基本听不到说“今天我端到端了”这样的描述。

自动驾驶的历史比较长,在很多年前算法模型的能力没有这么强,大家更多把这件事情变成一个流水线。因为自动驾驶用自回归模型用得比较早,早期开发比较初期,所以自动驾驶就有非端到端的架构。到了今天大家觉得模型性能提升了,就把它给整合起来。

就跟造车一样,比如说压铸件,之前工艺没现在先进,就分成好多小块,先造出来,然后再焊上。那现在有了一体压铸的机器和技术,而且很成熟了,从时间效率上就高了非常多。

所以说回到自动驾驶,端到端本质是用一个更统一的方式去提升计划效率,包括时间的效率,包括人的效率。

再进一步说的话, 从AI的发展来看,其实深度学习也是这个逻辑。最近10到15 年,所有AI 算法的发展,包括应用,本质上就是两件事:第一件事情是产生更好的效果,第二件事情是产生更好的泛化性。

第一件事情比较容易理解。原来一个任务,可能AI去执行效果差很多,比如说大家现在用得最多的是人脸识别,特别是通用的、对陌生人脸的识别,一开始AI没有人做得好,后来跟人差不多,现在绝对比人识别要好。

AI一步一步缩小和人的差距,然后做得比人更好,这是性能提升,是AI发展的第一个方向。

第二个发展方向,就是通用性。

比如说一个图像识别的算法,和物体检测的算法,分别用来判断一张图是什么类别和判断这张图里面有什么物体,开始都是不同的算法、不同的框架。那后来这俩图像和物体检测就可以融合了,再后来所有图像类的任务基本上都融合了,可能后续说图像类的任务和语音类的任务也快融合了。

实际上是希望最后变成所有智能体的任务,自动驾驶开车也好,机器人走路也好,机器狗爬山也好,所有任务都是用同样一套框架去做,这也是端到端之后要做的事情。

量子位:所以Transformer是一个很重要的变量,带来了效果上或者是算法能力上的提升,还带来了什么?

任少卿:Transformer在其中算是一个工具。

但是我想说AI的发展,实际上大家都在追求这两件事情,今天如果没有Transformer,可能也会有其他的工具,但大家追求的这个方向实际上是没有变的,就是想追求更好的效果和更通用的能力。回到我们刚才说的这个事情上,自动驾驶的端到端实际上是某种程度上在追求两件事儿。

另外的就是什么样的框架,除了自动驾驶外,相关的所有的智能体或者类机器人的方向,都能用同样的方式去解决。

这个是我觉得一定会有人去做,也是大家想做的事情。

量子位:现在用户都会去关注,车企的智驾是不是端到端的系统。多少有点诡异,因为端到端这个的事情它更大的意义是在于研发,在于厂商本身,对于用户其实没有那么大的意义。我不在乎我的这个车是不是端到端的系统,我觉得他能处理很多或体验很好就行。

任少卿:我觉得这是一件挺有意思的事。

用户愿意去关注这些工作还挺好的。比如说好多使用语言模型的用户,甚至开始关心这个模型怎么训练了。所以大家关心关心这事也挺好。尤其是对于早期使用的一些用户来说,讨论的这些话题对他来说是有意思的,他才参与这个过程。

再往后大家也会随着整个行业的技术迭代去讨论其他更多的话题,当然这些技术迭代也会带来一些新的体验和产品形态。

量子位:端到端会给你们研发的流程带来什么样改变?

任少卿:这其实是个模型化的事,大家现在可能过多地在关注研发流程、架构调整等等这些事情。但是模型化对于自动驾驶研发而言,绝对不是只是这半年的事。

自动驾驶最早可能2013年就开始用深度学习,然后逐渐地在增多比例。只是说可能大家最近谈起的比较多,所以就多说一说了。

量子位:自动驾驶会不会犯类似“分不清9.11和9.9哪个大”的常识性错误?

任少卿:有的,其实是一样的,语言模型里面叫幻觉,自动驾驶就是大家一直在说的 Corner case,或者说误检,漏检。

比如说,语言模型突然输出了一句莫名其妙的话,那在自动驾驶的感知模型里就是突然间有一帧没了,或突然间蹦出来一个实际上不存在的东西,其实都是类似的。

那自动驾驶开始解决这个问题的时间,相对来说是比较早的。更多的就是通过时序的切割机制,通过校验机制等去解决。

实际上像语言模型里面管控承诺也是这样, COT(思维链) 的一方面的逻辑实际上就是让系统自我校验:通过一个更复杂的输出表达,然后自我去校验。

现在也有像MOE ,或者还有其他的一些方法,比如说实际应用端的和后端的校验,都是同样的逻辑,所以整体来说就是模型训练,性能对齐,输出一个跟人类偏好差不多东西。

还有就是有错的问题,通过多次的校验,用神经网络,非神经网络的方法,再加上一些人力规则的方法去校验这个事情,把错的东西挑出来变成正确的。

世界模型

量子位:进入系统的视频数据,一方面是标注的真实数据,另外一方面就是世界模型的生成数据,有点像LLM中合成数据。

任少卿:如果要定义一个任务的话,最终要回答一个问题,这个问题就是你定义的任务有多通用。从自回归的角度来说,定义的任务越通用,学术的角度上看意义越大,从应用的角度看也是一样。

10 年前大家说计算机视觉领域的三大基础任务,图像分类,检测和分割。去理解一个图像,能对它进行分类,进行提框,找出里面的物体进行分割,这确实是根本任务。

但是到了今天,这个基础任务的定义不够了。我们需要一些更根本的问题。

语言问题定义的根本问题,是预测下一个token,下一个词。

实际上对视觉也是一样。如果能定义一个更基础、更根本的任务去解决问题,那在这上面找应用,它覆盖的范围就更广更通用。

量子位:用视频生成视频,本质上也是对问题的穷举?

任少卿:是的,作为一个基础任务,最根本、最本质就是要定义这个东西。所以现在的定义就是,视频去生成视频这件事情更本质,因为它能包含所有的其他可能性。

输出视频是一个分类,把中间的物体抠出来,那它就是可以做物体检测的任务。输出的是一个分割的结果,就是可以做分割的任务。输出的是一个三维重建,换个角度的结果,就可以做三维重建的任务。所以视频生成视频这件事情,实际上从问题的定义上来说是一个更根本的问题。

而且我们认为,重建是对于时空理解和对原始数据全面理解最深刻的表现形式。

因为基本上原来的信息量,都需要重构出来,才能去做中间的事情。

量子位:现在的世界模型和更早前的虚拟仿真,本质不同是什么?

任少卿:虚拟仿真我觉得完全是一个另外的逻辑。这实际上是两个方向,一个方向,我们说计算机视觉,一个方向是计算机图形学。

其实是分别干了两件事,一个事情是理解世界,一个事情是再造世界,就是虚构一个视觉。但是最近两年两个方向也越来越近了。

总体上来说,完全地理解这个世界是世界模型要干的事。

那现在也有一些用原始视频的方式来仿真,但它本质上不是要完全理解这个事情。不是说给它一个输入,就要把输入完全理解,而是说要重构一个东西出来。但重构的东西不见得是这个世界的全部。所以仿真的问题是仿真不包含这个世界的全部信息。

比如说最早的仿真,拿游戏来举例,游戏其实某种情况下就是仿真。最早的仿真就是像大家打红白机游戏,有(像素化)粗的信息,但是很多精细的东西是没有的。所以仿真一直存在的问题,就是它不断地逼近真实世界,但它离真实世界还有距离。

量子位:蔚来讲世界模型的时候,用了类人脑的方式,将其划分成两个部分,这是为了方便听众理解,还是系统本身就是划分成了两块?

图片

任少卿:分这么开是为了方便大家理解。实际上做的时候是耦合在一起做的,不是完全分开。

实际上我们讲的时候,第一部分关于空间重构,其实也是重构成视频。那重构成视频,某种程度上里面也包含时间的信息,只是说我们给大家讲例子它不会那么长。

那讲第二部分时间认知的时候,我们更强调时间认知,想象推演的能力。那推演出来的结果时间长,变化多,但是实际上它是和第一部分空间重构的能力耦合在一起的。

量子位:对生成式AI关注多吗?

任少卿:我觉得挺好,最近实际上变化很大呀。就是为什么要去说世界模型这件事,为什么会往这个方向走。

因为就是回到刚才那个话题,端到端、非端到端只是智能驾驶领域的一个大家讨论的事。从技术角度来说,我们会想实际上从更大的范围之内,那自动驾驶和机器人与大语言模型的融合会是什么样的方式?

量子位:世界模型,就是你们给出的一个方式。

任少卿:对,它是一个更贴近通用的一个方式,自动驾驶能用,之后机器人也能用。那语言模型,后面的原生规模也会是类似的框架。

当然其实还有更激进的方式,就融合所有域,但是这个咱们就后面再说啦。

量子位:规模很宏大,会遇到工程问题吗?

任少卿:会遇到很多工程问题,所以现在给大家讲的世界模型,它会更贴近于下一个阶段的机器人、自动驾驶,以及语言模型的基本框架。

量子位:什么是世界模型的多元自回归生成结构?

任少卿:其实这里面的这三个东西,和大家实际上都在研发的语言模型,机器人框架,很类似。

里边有三个关键词,从右往左说,第一个是生成,这个生成的方式,它有很多的优势,不用标数据了,学习效率更高,所以语言模型早就已经是生成式的了。

那自回归本质上可以解决长时序的问题,所以语言模型long contents也是类似的方式。自动驾驶和机器人要解决长时序的问题,也得用这种方式。

多元是什么呢?多元就是这个multivariable input 和output(多模态输入与输出),本质上是要解决多数据源的问题,那之后自动驾驶想用互联网的数据,或者互联网想用更多领域的数据,其实都要用类似的这种方式。

我们是希望通过这些框架,去打通跨领域的事。

智能驾驶四大关键技术要素

量子位:现在都在做城区NOA,但每一家最后呈现的体验不同,你觉得是什么因素决定的?

任少卿:可以认为大概四大因素吧:

第一是模型,第二是数据,第三是优化——模型总还是会出问题,出了问题之后怎么用其他的方式、基于优化的方式去做联动。

第四个是功能的多少,feature 有多少,实际上就是基于前面三块,但也并不是完全相关。

所以第一点来说,模型的角度实际上就是我们这次所说的核心。每家其实会有不一样,甚至说每家不一样的点还不少,这是模型的角度。

第二个就是数据的角度,数据多还是少、频率快还是慢。对于我们来说,蔚来的数据闭环,我觉得可能是全球最好。

第三,模型输出的结果也会有问题,那处理的方式,导致的效果更好还是更差?怎么能做到效果好,其实有两点,一个是指不要误杀模型输出的好的结果,一个是指如果没有误杀模型的结果,模型做得不好的时候相对来说更丝滑:肯定不要出现这个模型前半段这么开的,后半段就不是了,或者说后半段输出的轨迹不平缓了。

就比如说,如果突然有个障碍物出现,系统打方向盘,虽然也没撞墙、是做对了的,但是对用户来说肯定体感不好,明显有段落感,这种体验就不好。那怎么去做优化就是很重要的一件事。

第四个就是说基于以上,还能有什么新的功能,从用户体验的角度来说,能不能做得更好。这就包括用户使用情况的追踪,跟用户的交互等等。

总结来看,技术能不能做到在一个层级上,这个事情很重要。

某种程度上来说,模型根本上是为了提高效率。模型提升了上限,但是实际上它并不能保证它的下限一定在提高,它有可能下限在下降

所以后面包括融合模型和优化方法,实际上就要保证下限能保持或者提得更高,同时又不降低效率。同时需要让用户用得好,需要让用户有更多可用、爱用的功能。

自动驾驶与机器人

量子位:现在好多机器人创业公司,说要打通虚拟世界跟物理世界,和打通不同领域有什么不一样?

任少卿:那个是另外一个工程模型。

说打通不同领域,实际是在说打通不同应用。就比如说自动驾驶和机器人、大语言模型这些技术的融合,就他得彻底用同样一套框架去做。

其实大家很容易理解——实际上自动驾驶是一个特殊的“机器人”,是所有机器人应用里面最大的一个应用之一,也是目前价值最大的。其实大家发现说之前的自动驾驶,或者直到现在自动驾驶,为了做它的这个研发成本是非常非常高的。那大家现在都在深耕自动驾驶,因为它前期的商业场景是非常大的。

如果用目前自动驾驶的同一代技术栈去做机器人,可能没有任何一个机器人的应用在当下能撑得起来这个投入。

但是我们认为说长期再往后走,自动驾驶也是个泛机器人领域,所以那能不能用同样一套框架、用更高的可共享度,然后用更低的成本去做所有的机器人,就泛机器人能力这个事情,我们觉得一定是能做的。

但要找到相应的技术,本质上前面说的这些世界模型,我们觉得我们自己的框架也能去做机器人。

量子位:暗示蔚来也能做机器人?

任少卿:主要是我觉得从技术的维度上来说,这件事情它基本就是这个路径实现的。

那如果机器人探索出来它统一的框架,它一定能回来做自动驾驶。因为本身是很相似的,同时这些方式肯定都是要用大量的数据的。

那在自动驾驶上把这样的一套充分认知的框架,做出来的可能性更大,因为它的数据量更大了。

做机器人来说,我觉得还是要分三层,我们认为它实际上有三层的能力,第一层能力叫做概念认知,第二层叫时空认知,第三层叫做运动的,或者说叫交互

第一层的概念认知实际上就是大于模型解读,第二层的时空认知就是刚才我们说的这些。第三层的运动能力从某种程度上看,就是怎么去控制轮子,怎么去控制腿,怎么去用某一只手,或者怎么去拿一个工具或者物品,拿起工具来了又要去把它用起来。但是通用来说我们说道的第二层的能力,就是这个时空认知的能力,是一个很通用的能力。

量子位:如何看待这几年整个产业的变化?

任少卿:其实我觉得在整个产业上,从技术的角度来说,自动驾驶前面几年技术都没什么特别大的变化,最近这半年一年倒是变化挺大。很多的变化本质也并不来自于自动驾驶领域,更多源于我们前面说的这些AI科技在其他领域上的发展。

量子位:可能最后还是会追求变成一个通用的模型,打造一个像人一样的这种智能体?

任少卿:是这样的,剩下的问题是怎么把它打造出来。AI 通用模型和机器人等类型的科技交叉越来越多,所以我觉得做智能驾驶也不能只关注智能驾驶

版权所有,未经授权不得以任何形式转载及使用,违者必究。