韦丽雪发自副驾寺
智能车参考报道 | 公众号 AI4Auto

人类司机开车，陌生的路开多了自然就会熟练。

自动驾驶开车，需要大量的学习和训练。

这就离不开提供“训练场地”和素材的庞大数据集。

此前，Waymo拥有最大的2D自动驾驶数据集。

不过现在，华为诺亚方舟实验室联合中山大学发布了新一代2D自动驾驶数据集SODA10M。

比Waymo现有的大10倍。

包括了1000万张无标注图片以及2万张带标注图片。

除了大，这个数据集还有什么不同？

数据集从哪里来？

SODA10M数据集收集了不同城市在不同天气条件、时间段以及位置的场景。

晴天雨天、白天夜晚、城市高速园区……

更重要的是，覆盖面很广。

1000万张无标注图片来自32个城市，囊括了国内大部分地区。

2万张带标注的图片，直接标出了6种主要的人车场景类别，分别是：

Pedestrian、Cyclist、Car、Truck、Tram、Tricycle。

具体是怎么操作的？

华为通过众包方式把采集任务分发给上万名出租车司机。

由出租车司机使用手机或驾驶记录仪（1080P+）采集图片。

你以为随手拍个照片就完事？

还要以每10秒一帧的速度，在不同的天气条件下采集图像。

地平线需要保持在图像的中心，遮挡汽车内部不能超过15%。

对收到的图像还会随机选择其中的5%，进行手工验证。

合格率低于95%将退回。

针对涉及隐私的信息，例如人脸和车牌等都会进行模糊处理。

最大数据集有啥用？

华为用已标注的训练集（2万张带标注的图片），搞了一场自动驾驶的主流模型的大pk。

对象是全监督、半监督和自监督学习。

分为训练、验证和测试三个环节。

为了增加难度，最终测试选择的图片是上海白天晴天，而且是城市场景。

在验证这一环节，则包含了多种不同场景下的图片。

最终结果表明，仅仅通过全监督训训练出来的模型取得的效果并不好，全监督训练的结果夜晚与白天的精度差距大。

此外，华为还把Waymo自动驾驶数据集、现有的经典自监督算法数据集ImageNet拉来，和SODA10M的表现进行比较。

从这三项入手：

1、目标检测；

2、BDD100K(伯克利发布的大型开放驾驶视频数据集)；

3、Cityscapes上的语义分割。

效果如何？

在Moco系列（城市景观语义分割），以及基于像素和中间层特征的自监督方法DetCo, DenseCL上，SODA10M自监督训练的效果与ImageNet相仿。

两者都明显优于Waymo。

这也意味着自监督算法上游的数据集大小，对于下游的学习和测试有极大影响。

据华为介绍，建立这个数据集主要是为了通过自监督学习，构建下一代工业级自动驾驶系统的方法。

此前，自动驾驶主要依靠训练过的视觉感知模型进行学习。

这类模型使用大量的数据标注，自动驾驶的安全性得到确保，但弊端也很明显。

自动驾驶系统会对此产生依赖，而且学得很慢。

半监督和自监督学习通过大型数据集，挖掘大量的无标记数据和少量的无标记数据，能够提升学习的鲁棒性。

所以建立一个足够大的数据集，成为了关键。

据悉，华为诺亚方舟实验室将基于这个训练集，开放2D自动驾驶挑战赛。

并且会从中评选出Best Paper Award。

奖金丰厚，感兴趣的朋友或许可以一战。

论文地址：https://arxiv.org/pdf/2106.11118.pdf

数据集：https : //soda-2d.github.io/index.html

— 完 —

智能车参考 · AI4Auto

关注我们，第一时间获知智能车最新动态

华为发布业内最大2D自动驾驶数据集，10倍于Waymo，主打半/自监督学习

韦丽雪发自副驾寺
智能车参考报道 | 公众号 AI4Auto

数据集从哪里来？

最大数据集有啥用？

相关阅读

3.98万L4无人车来了！卷出行业新低，1小时卖掉半年产能

Waymo无人车撞死小狗！系统已识别，还有安全员，就是不刹车

中国特斯拉车主卑微维权：完全自动驾驶差点要了命！渣土车并线，竟然加速撞上去

领骏科技获数千万元PreA+轮融资，在城市物流领域取得重大进展

大模型指令调优数据集万字评测！腾讯上交大联合出品

【申报指南】2022中国自动驾驶年度科技创新奖！

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

中国AI投资五小龙：南林北曹，东剑西米，中王淮；清一色985理工科背景

华为发布业内最大2D自动驾驶数据集，10倍于Waymo，主打半/自监督学习

韦丽雪 发自 副驾寺 智能车参考 报道 | 公众号 AI4Auto

数据集从哪里来？

最大数据集有啥用？

相关阅读

3.98万L4无人车来了！卷出行业新低，1小时卖掉半年产能

Waymo无人车撞死小狗！系统已识别，还有安全员，就是不刹车

中国特斯拉车主卑微维权：完全自动驾驶差点要了命！渣土车并线，竟然加速撞上去

领骏科技获数千万元PreA+轮融资，在城市物流领域取得重大进展

大模型指令调优数据集万字评测！腾讯上交大联合出品

【申报指南】2022中国自动驾驶年度科技创新奖！

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

中国AI投资五小龙：南林北曹，东剑西米，中王淮；清一色985理工科背景

韦丽雪发自副驾寺
智能车参考报道 | 公众号 AI4Auto