加盟依图科技后,颜水成首篇顶会论文提出“高效多人体姿态检测SPM”

唐木 发自 天龙寺

量子位 出品 | 公众号 QbitAI

颜水成团队研究实力依然强劲。

从360到依图,颜水成依然保持着高质量的学术输出。

最近提出的单阶段高效人体姿态检测模型SPM就是最好的例证,论文被ICCV收录。

这篇论文从全新的角度处理了单图像多人姿态检测的问题,通过新提出的结构化位姿表示方法(Structured Pose Representation)将多人姿态检测问题从先前的两阶段方法浓缩为单阶段检测,大幅度提高了人体位姿检测的效率和精度。

让我们先来看看这种新方法的检测结果,对于单张图像可以有效检测出其中包含的人体及其每个关节的位置信息。

甚至可以检测面部关键点位置:

三维检测也不再话下:

在保证精度和性能的同时,这种高效方法在速度上达到了将近20帧的速度,大幅超越先前算法。

结构化位姿表示

这种方法的关键在于颜水成团队提出了一种新的位姿表达方法SPR(structure pose representation)将人体实例的位置关节的位姿统一起来,简化了人体检测和关节定位的流程,从而大幅图提升了多人位姿估计的处理效率。

这种新的表示方法将图像中的人体和关节位姿通过结构化和层次化的方式来呈现:

要充分理解SPR这种新表达的优势,我们需要先回顾一下先前对于位姿检测方法的流程。

多人位姿检测的任务是在给定的图像中估计出每一个人体实例的位置及其关节的位姿。

目前多人位姿估计将人体位置检测和关节位姿检测作为任务的两个阶段来进行,主要是策略主要有自底向上和自顶向下两种方法。

自顶向下的方法可以简单理解为先检测人再分别检测每个人的关节位姿。

这类方法首先利用人体检测器来定位和分离图像中每一个人体实例,随后再利用单人位姿估计器来对每一个实例的关节位姿进行检测和定位。

自底向上的方法则是一种先关节后人体的思路。这类方法首先利用关节估计器寻找出图像中所有的关节位姿,而后估计出图中的人体实例,并通过求解图切分问题将对应的关节赋予对应的人。

无论是哪种方法,都需要进行两次检测,一次检测人的位置,一次检测关节的位置。两个网络就围着同一张图像需要处理两次甚至更多次,这还不算数据交换和后处理带来的延迟。

如果可以将两个阶段的检测任务统一到一个框架里,一个网络一次推理即可完成,那样是不是就可以大大提高计算效率了?!

先前的方法之所以需要两个阶段,主要是由于关节位姿的表示需要基于人体实例的位置来进行。颜水成团队从这个角度出发,探索了新的关节位姿表达方式SPR。

想要单阶段实现多人位姿估计,就需要一个统一人体位置和关节位置的表达。SPR提出了一个很具有启发的观点,它在常规的关节位置外引入了一个辅助关键位置——基准关节,这个基准关节就代表了人体实例的位置。

这个独特的关节表示成为了解决问题的关键所在。

每个人体关键就可以表示为基于这一基准关节的偏移。在这样的表达下,检测问题就被转换为了预测每个人体对应的基准关节以及各个关节相对于基准关节的偏移量,两阶段为题就可以通过统一的关节表达而简化为单阶段问题:

这就是需要进行估计的量,只需要估计出图中每个人体基准关键的位置和每个关键的相对偏移就能实现多人位姿估计。需要指出的是,只需要将对应关节的偏移加上基准位姿就可以转换为先前的第i个人第j个关节的位姿表达:

这种方法看上去已经很好地将人体位置和关节位置统一在了一起。但人是在运动的,有些关节离中心的基准关节偏移太大,直接从图像中回归出这些关节的偏移量难度较大误差也大。怎么办呢?

看看自己的手,从肩膀到手肘,从手肘到手腕,一级级相连。似乎手腕到手肘更近一些?

就是这个思路!基于人体的运动结构,将关节的位移分为了四个层级,将相对于基准关节的偏移转换为了相对于上一级关节的偏移。其中基准关节也就是人体位置在第一层,包括脖子、肩膀、臀部等躯干关节被归为第二层,头、肘、膝盖则在第三级上、最后腕和踝则在最后一级。

人体各个关节偏移被重新表示为了与相邻层级上一关节的相对偏移(加上了波浪线的新位移)。

这样,手腕到身体中心的偏移就被巧妙地分解为手到肘、肘到肩、肩到中心的短距离位移叠加,减小了偏移估计的难度同时也充分利用了躯干构造的结构信息。

快到飞起的SPM

有了这种新的统一的结构化的表示,新方法也应运而生。

利用这种统一的表示方法,单阶段推理模型的任务就变得十分清晰了,从图像中估计出每个人体实例的关节集合,包括了基准关节和各个关节相对基准关节的相对基准关节的偏移情况。

这一名为SPM的模型采用了Hourglass network作为主干,这一网络模型由多个Hourglass模块堆叠而成,每个模块则利用了U-Net的结构来进行特征抽取和解码用于关节定位。为了充分复用低层级的空间信息来优化高层语义信息,SPM加入了多个跳接层来实现跨层级的信息流动。

在原始Hourglass模型的基础上,SPM不仅使用了置信度回归分支来预测每个人体的基准位置、同时加入了偏移回归分支来预测每个人体关节的偏移图。通过这样的方式SPM就能在一次前传中获得多人位姿的估计结果。

其损失函数也因此包含了基准关节损失和各个关节偏移预测损失的两部分:

实验结果

这一模型的有效性在包括MPII,PASCAL-Person-Part,MSCOCO以及CMU Panoptic等多个人体位姿数据集上进行了实验。其中前三个为二维图像数据集,最后一个为3D空间位姿标记的数据集。

研究人员首先在MPII数据集上对多种算法的性能进行了对比,结果显示基于新表示方法下的SPM模型可以达到58ms的速度,比先前两阶段的方法中最快的自底向上方法提升了约五倍的速度,并实现了78.5%的mAP值,在效率和精度上都超过了先前的方法。

此外,研究人员还发现将SPR替换为层次SPR还可以进一步提高模型的mAP,特别是对于离身体中心较远的腕和踝都得到了将近4%的mAP提升。结果清楚的表明关节的分层表示可以显著提高多人位姿估计任务的性能。

这种方法还可以很方便的拓展到三维情况,在CMU Panoptic数据集中进行的实验表明SPM对于位姿变化、遮挡、尺度和深度变化都很鲁棒。

它改变了先前只能定性测评三维位姿数据的状况,并在这一数据集上达到了77.8的3D-PCK。

颜水成团队

这一单阶段多人位姿检测模型在精度和速度上都实现了非常大的突破,让高速的多人位姿检测成为可能,同时也为三维位姿检测问题给出了可能的解决方案。

论文来自新加坡国立大学和依图科技,这也是颜水成履新依图之后发布首篇会议论文。

一作聂学成,是颜水成和冯佳时联合指导的博士生,目前正在NUS进行计算机视觉方面的研究工作,并在顶会顶刊上发表了多篇优秀论文。

二作张健锋毕业于武汉大学,目前在冯佳时老师的指导下在NUS作为研究助理与聂学成紧密合作开展视觉方面的研究工作。

颜水成老师是视觉领域的优秀科学家,作为NUS视觉团队的带头人为学界贡献了诸多研究成果,目前是依图科技CTO。

冯佳时老师曾是颜水成老师的博士生,研究方向包括机器学习、深度学习、大规模机器学习及其在视觉、数据分析和人工智能方面的应用,目前领导着NUS学习与视觉实验室课题组的研究工作。

论文传送门:

https://arxiv.org/pdf/1908.09220.pdf

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关阅读