注入Attention，精度涨30%！谷歌发表最新多目标“动态抠图”模型

丰色 2021-11-30 16:55:24 来源：量子位

只需第1帧图像并框好物体边界就能“抠”

只需第一帧图像+边界提示，就能将视频中各物体“抠”出来并进行轨迹跟踪：

以上就是谷歌的最新研究成果。

该方法通过在视频中引入注意力机制，成功地解决此前采用了无监督学习的多目标分割和跟踪方法的一些不足。

现在的它，不仅可以泛化到更多样、视觉上更复杂的视频中，还能处理更长的视频序列。

通过实验还发现，相比此前的模型，谷歌这个新方法在MOVi数据集上的mIoU直接提高了近30%。

为“动态抠图”引入注意力机制

方法被命名为SAVi（Slot Attention for Video）。

而此前的无监督目标分割和跟踪方法最大的问题，就是只能应用到非常简单的视频上。

为了处理视觉效果更复杂的视频，SAVi采用弱监督学习：

（1）以光流（optical flow）预测为训练目标，并引入注意力机制；

（2）在第一帧图像上给出初始提示（一般是框出待分割物体，或者给出物体上单个点的坐标），进行分割指导。

具体来说，受到常微分方程的“预测-校正器”方法的启发，SAVi对每个可见的视频帧执行预测和校正步骤。

为了描述视频物体随时间变化的状态，包括与其它物体的交互，SAVi在进行光流预测时在slot之间使用自注意力。

slot就是指视频中各物体，用不同颜色区分。

校正阶段，带有输入的slot-normalized交叉注意用于校正（更新）slot表示集。

然后预测器的输出根据时间来初始化矫正器，使模型最终能够以一致的方式随时间跟踪物体。

△ SAVi模型架构图

在训练中，每个视频被分成六个6帧子序列，第一帧接收提示信号，每帧两轮slot注意力。

在完全无监督视频分割中，研究人员以64的batch size训练了十万步。

没有提示，也能进行简单视频的分割和跟踪

在CATER数据集上，测试表明，SAVi架构完全适用于无监督的物体表示学习。

在光流条件监督的情况下，SAVi在MOVi数据集上获得72.1%的mIoU，比基线模型CRW和T-VOS分别高了近30%和近20%。

SAVi在MOVi++数据集上的mIoU得分为45.9%，比T-VOS略高一点，比CRW低了5%。

另外，还可以看到，在第一帧图像上给出质心形式的提示效果会比边界框好一点，但区别不大。

值得注意的是，即使没有任何提示，该方法也能分割一些具有简单纹理的动态场景，比如在数据集Sketchy上。

不过，在将SAVi完全用于现实世界里的复杂视频时，还有一些挑战需克服：

1、所采用的训练方法假设在训练时光流信息是可用的，而在真实视频中，这不一样有；

2、研究中所涉及的都是一些简单物体的基本运动，现实远比这个复杂。

最后，作者表示，SAVi在分割和跟踪方面仍然表现出色，在第一帧给出提示信息的做法也可能会衍生出各种相关的半监督方法。

论文地址：
https://arxiv.org/abs.2111.12594

参考链接：
[1]https://slot-attention-video.github.io/(代码即将开源)
[2]https://www.marktechpost.com/2021/11/28/google-research-open-sources-savi-an-object-centric-architecture-that-extends-the-slot-attention-mechanism-to-videos/

视频物体追踪谷歌

丰色

注入Attention，精度涨30%！谷歌发表最新多目标“动态抠图”模型

为“动态抠图”引入注意力机制

没有提示，也能进行简单视频的分割和跟踪

相关阅读

10万镜子反射月光，组成3.6平方公里巨幅头像，谷歌花式纪念登月50年

谷歌年关裁员1.2万人，暂停新员工绿卡申请！加州第一个法定春节假日，打工人年难过

本想去谷歌捞一笔就跑，却成了改变AI历史的人｜Transformer作者对话Jeff Dean

谷歌承诺不再为石油和天然气公司开发AI工具

美国进入紧急状态：谷歌投入1700名工程师上阵抗疫，马斯克称车祸比新冠病毒危险

谷歌打响全面反击战！官宣AI重构搜索、新模型比肩GPT-4，朝着ChatGPT微软开炮

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

数学家们仍在追赶天才拉马努金

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购