谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

自动驾驶最新落地挑战曝光

邓思邈 发自 副驾寺

智能车参考 | 公众号 AI4Auto

自动驾驶最新的研发和落地挑战曝光了:数据存储成本高昂,自动驾驶公司正在想办法“节食”。

这不,谷歌旗下Waymo摊牌了——

现阶段更注重自动驾驶数据的质量,而不是数量。

必须筛选出有保存价值的数据,丢掉没有价值的数据。

其实,这也是在Robotaxi相继落地凤凰城、旧金山后,不得已做出的选择。

很显然越往后发展,数据成本会越大…这对于自动驾驶是新的考验。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

更加注重数据质量

对于自动驾驶数据,Waymo定下了明确的要求。

根据最新消息,近日Waymo为负责计算基础设施的团队设置了严格的数据上限

他们现在只保存新采集的数据,将老的数据删掉,因为与当前的技术、实际情况和各项优先级相比,之前的数据已经过时了。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

此外,Waymo公司从上到下都需要配合——各个团队被分配了不同的数据存储限额

例如,有的团队负责让车辆识别周围的环境(感知) ,有的团队则基于以往的乘坐经历来测试软件更新(评估),这些小组都需要对数据进行取舍。

如果他们选择保留车辆应急突发事件的数据,那么系统就会自动过滤掉其他无关的数据。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

Waymo做出这一改变后效果如何?

软件工程师查塔姆透露,他们的“新政”非常奏效,随着Robotaxi车队规模的扩大,他们必须尽快舍弃掉没用的数据。而且他还说,对自动驾驶数据的存储量进行节省,有时能激发创造力,并提供有价值的发现

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

举个例子,因为要节省存储量,他们就会思考,下雨和下雪哪个天气状况下的数据,对于他们业务发展来说更重要?

最后他们得出的结果是下雪,一方面是他们现在采集的下雪数据量很有限,另一方面是他们的车辆应对下雨天气处理得更好了,因此不需要再花费过多精力。

而且他们还发现与下雨有关的数据把停车时的数据也都采集来了,他们认为这很没有必要。

事实上,Waymo对待数据的态度,并非一成不变。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

最开始十多年前,自动驾驶还是谷歌内部的一个小项目时,要想存储更多的数据并不容易。

在当时,没有明确用途的数据会被他们删掉,例如自动驾驶操作失败的记录。

到了2016年12月,从谷歌独立出来后,Waymo对于数据存储有了更多独立性和自主权。

当时他们大幅增加了数据存储容量,团队对保存的自动驾驶数据也不那么挑剔了。

例如在2019年末,他们开始测试捷豹I-Pace这款Robotaxi时,由于配备了更先进的传感器,生成的数据量也更大了,以至于当时测试车1个小时采集的数据量超过1100GB,足以填满240张DVD光盘。

直到现在,又开始对数据进行节制了。这个从紧到松再到紧的变化过程,根本上反映了Waymo目前的经济状况。

今年年初面临裁员、还收缩了自动驾驶卡车业务,如今随着Robotaxi服务范围的扩大,Waymo这时就需要从各方面来节流。

数据存储就是一个重要切入口。简单举例,英特尔在2016年就估计,每台无人车每天将产生4000GB的数据量,以亚马逊目前的收费标准计算,存储一年的成本约为35万美元(折合人民币约为244万元)。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

随着自动驾驶技术的发展,如今的数据存储成本已远远超过了这个数。

其他自动驾驶公司怎么样?

对数据越来越挑剔的,不止谷歌Waymo一家。

通用旗下Cruise表示,在旧金山采集的数据中,只有不到1%的数据被团队认为有用,所以他们现在也不会选择在云端存储所有的数据。

随着车队规模的不断扩大,Cruise正致力于改进其数据存储系统,目的是使自动驾驶落地变得更容易、成本更低。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

现代汽车与安波福(Aptiv)合资组建的L4级自动驾驶公司——Motional也存在类似的情况。

据Motional副总裁Balajee Kannan表示,那些罕见的东西和不太寻常的场景会被删除掉,比如道路上的障碍物或带有冲浪板的自行车。更繁忙场景的数据最有可能被保留下来。

除了删除掉没有价值的数据,另外一个办法是对数据进行分级存储,对于那些访问频率较低的冷数据,可以存储在性能合适、成本较低的基础设施之上。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

谷歌无人车开创者克里斯·厄姆森(Chris Urmson)创办的Aurora,就用了这样的办法。

他们目前通过使用自动化系统对无人驾驶卡车产生的数据进行分类,而且工程师也会标记关键的数据,例如最近发生的危险事故等,以确保这些数据以常规的方式进行存储。

而那些不常用的数据,每个月都会陆续被转移到较冷的存储区。直到三个月后,才会对大量的数据进行删除。总体来说,只有大约15%的数据位于Aurora最容易访问的存储层。

谷歌都烧不动了!自动驾驶数据存储之困:落地越多数据越大成本越高

另外,图森也表示他们会在四年后,将大部分数据转换为冷存储。

总的来说,日后随着自动驾驶技术的提高、传感器数量的增多、车队规模的扩大,数据存储的成本会只增不减

诚然,自动驾驶公司如果想要降本增效,就必须在节省流量费用、节省存储资源及计算资源上下功夫。

这是新的挑战,也是新的机遇。

文章参考链接:

https://www.wired.com/story/self-driving-cars-are-being-put-on-a-data-diet/

https://baijiahao.baidu.com/s?id=1761056932090741984&wfr=spider&for=pc

版权所有,未经授权不得以任何形式转载及使用,违者必究。