入围CVPR最佳论文,这项AI基础研究让我们对虎牙刮目相看

AI正在变革视频行业,玩法越来越丰富。

晓查 发自 凹非寺

量子位 报道 | 公众号 QbitAI

AI正在变革视频行业,玩法越来越丰富。

近年来,越来越多的AI技术开始应用到视频网站中:

从简单的图像和行为识别,可以像文字搜索一样搜索图像,还能后期“无中生有”各种各样的效果。

到视频直播实时特效,美白塑形长腿,都能实时完成。最终还有完成换脸。

去年热门的“语义分割”技术让实时弹幕不再挡住主播的脸。

或许你也会问,AI对视频的变革,下一步会从何种维度展开?

CVPR上的众多新研究,“异口同声”的主题应该可以给你答案:这就是“行为预测”方向。

其中最典型的的是,今年上半年李飞飞团队发表的一篇论文,当时引起不小的轰动。

光流法可以作为行为预测的一种方法。

而在不久前结束的CVPR上,中国互联网公司虎牙,也是在这一领域提交了新论文《SelFlow: Self-Supervised Learning of Optical Flow》,在光流法的问题上取得了开创性的突破。

虎牙这篇论文从CVPR 2019接收的1294篇论文中脱颖而出,入选了今年的最佳论文决赛(Best Paper Finalists)。

虎牙这项研究在为何能在受到CVPR论文评审们的青睐?

首先要从光流说起。

光流

什么是光流(Optical Flow)?所谓光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。

根据物体在相邻两帧上的位置的变化可以计算光流。

通俗地说,光流场反映了图像里每个像素点的运动趋势,可以看做是各个像素点的运动矢量场,它包含了图像中物体运动速度的大小和方向。

光流在物体轨迹跟踪、3D重建、自动驾驶等场景中都有着广泛的应用。

光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

可以说,光流包含着运动图像中最基本的信息。而往往越是基础的研究越是有着广泛的应用。

广泛的应用场景

光流这个上世纪40年代提出的概念,目前在在图像视频处理、计算机视觉的许多问题上都发挥着重要的作用。

光流的应用包括不仅能推断的物体的运动状态,还能预测物体的结构和场景环境等。因此,光流法可以用于自动驾驶、轨迹跟踪、3D结构重建、运动检测、图像分割等方面。

另外,光流的概念最早是由一位心理学家提出,它是人类对运动和环境结构认知的心理过程,是人类视觉的关键组成部分。因此研究光流可以学习如何将人类的能力转换为计算机视觉能力,这在机器视觉领域同样至关重要。

掌握了计算机视觉基础的“魔法”,就能在AI产品落地中玩出更多花样,在直播中加入更多的AI。

比如用光流预测直播画面中人物的行为,在某些有害的信息出现前就及时做出预防;用3D结构重建实现更低成本的VR直播,等等。

业界领先

既然光流的用处这么大,于是来自虎牙的AI研究团队提出了一个大胆的想法:用卷积神经网络(CNN)预测被遮挡像素的光流。

来自虎牙的AI研究员、也是这篇论文的第一作者刘鹏鹏说:这是光流研究历史上第一次不使用额外仿真数据达到的最高准确度。而且实验结果提交了半年以上,仍然在Sintel测试数据集上排名第一,至今未被打破。

本届CVPR的论文提交数量为5265篇有效投稿,比去年增加56%,但接收率为却比去年下降了3.9%,入选难度逐年上升。

计算机视觉近年来的大热,让基础型研究在一众论文中显得尤为难能可贵。这篇文章能够入选CVPR 2019最佳论文决赛也凸现了虎牙在AI基础领域研究的能力。

原理简介

虽然CNN在图像分类、目标识别等问题上取得了巨大成功,用它来预测图像的光流可以实时运行并且具有高性能,但是它也存在着诸多问题。

首先,如果使用监督学习的方法,那么CNN需要大量的标记数据,而包含光流的图像数据很难获得,最后不得不依赖仿真数据。

其次,如果使用无监督学习的方法,那么被遮挡像素的预测结果往往不佳,和不被遮挡的像素存在着较大的性能差距。

这是由于当前无监督的学习方法基本都是基于亮度一致性假设,通过image warping的方式,基于估计的光流warp第二张图片来重构第一张图片,然后比较第一张图片跟warp后的第二张图片的亮度差异。

这种方法可以比较准确地估计没有被遮挡像素的光流,但是对于被遮挡像素的光流估计却无能为力,因此对于被遮挡的像素,亮度不变假设不再成立。

如何在不使用任何标注数据的情况下预测被遮挡像素的光流呢?

虎牙提出了一种自监督学习方法从无标记的数据中学习光流。这种方法从无遮挡像素中提取可靠的光流估计,并使用这些预测来学习被遮挡像素的光流。

然后,研究人员用人为制造遮挡的方法造出新的被遮挡像素数据,利用之前已经学习到的没有被遮挡像素的光流作为监督数据,去指导神经网络学习被遮挡像素的光流。

这种自监督学习框架在MPI Sintel,KITTI 2012和KITTI 2015数据集上取得了最优的无监督效果。

更重要的是,这种无监督学习方法得到的模型为有监督学习提供了很好的初始化,消除了对仿真数据的依赖,经过有监督微调,在多个数据集上取得了最优性能。

展望

光流法在计算机视觉领域的有着非常基础的应用。虎牙这次发表的基础研究问题,解决了光流法在过去应用中的一些根本难题,实验结果达到了目前业界最先进的水平,乃至在半年多的时间里没有对手能超越。

虎牙的这项研究未来不仅对直播行业的产生重大影响,提高网络直播的AI含金量,还能在自动驾驶等热门AI领域发挥重要作用。

虎牙今后是不是会用手中的AI技术去参与更多的跨界行动?我们不敢妄加猜测,但至少虎牙已经在CVPR中让我们刮目相看了。

版权所有,未经授权不得以任何形式转载及使用,违者必究。