900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释

鱼羊 发自 云凹非寺
量子位 报道 | 公众号 QbitAI

谷歌的900万注释图像数据集Open Images,再次进化。

这一次的V6版本,不仅增加1400种视觉关系注释类型,新增2350万个经过人工验证的图像级标签,包含250万个人类动作注释,还更新了新特性局部叙事(localized narratives)。

所谓局部叙事,是一种全新的多模式注释形式,包括所描述对象的同步语音、文本和鼠标轨迹。

谷歌900万注释图像数据集升级:首增语音、文本、鼠标轨迹同步注释
图源:谷歌博客

在Open Images V6中,有50万图像适用这一模式。

同时,谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。

局部叙事

Open Images的这一次升级,重头戏就在于加入了局部叙事。

在Open Images V6中,新增了507444个局部叙事。

谷歌表示,这部分注释数据里,鼠标轨迹总长度约为6400公里;要念完所有的文本叙述,需要1.5年时间。

谷歌900万注释图像数据集升级:首增语音、文本、鼠标轨迹同步注释

在研究、利用视觉和语言之间的联系时,通常会使用图像字幕,即图像及其描述文本之间的配对。

那么问题来了,文本中每个单词都对应到图像的哪一个部分呢?

局部叙事,这时就派上了用场。

这些注释由注释人员完成。注释人员在念出图像描述文本的同时,会将鼠标移动到单词对应的图像区域上。

谷歌900万注释图像数据集升级:首增语音、文本、鼠标轨迹同步注释

并且,他们会手动纠正自动语音识别结果,确保语音、文本和鼠标轨迹三者对应正确且同步。

谷歌900万注释图像数据集升级:首增语音、文本、鼠标轨迹同步注释

另一个有趣的应用点是,这些图像为探索人们描述图像的方式提供了潜在的研究途径。

因为谷歌并没有指定注释人员要用什么方式去移动鼠标,所以在这些注释中,你可以看到不同的指示对象的方式。

谷歌900万注释图像数据集升级:首增语音、文本、鼠标轨迹同步注释

这可能会为新用户界面的设计带来灵感。

新的视觉关系,人类动作和图像级注释

除了局部叙事,Open Images V6还新增了大量新的视觉关系和人类动作注释。

比如在一张狗狗叼飞盘的图像中,除了狗狗和飞盘会被各自标记出来,“捕捉”这个动作也会被标记出来。

谷歌900万注释图像数据集升级:首增语音、文本、鼠标轨迹同步注释

而对计算机视觉而言,理解人的行为也是一大研究重点。于是,Open Images V6中现在一共包含250万个人类动作,比如“跳跃”、“微笑”、“躺下”等等。

谷歌900万注释图像数据集升级:首增语音、文本、鼠标轨迹同步注释

并且,在添加了2350万个新的经过人工验证的图像级标签后,Open Images V6里的图像级标签达到5990万个,涵盖19957个不同类别。

目前,Open Images V6共包含:

  • 600种类别的可框住对象子集。包含1,743,042张训练图像,41,620张图像的验证集和125,436张图像的测试集。
  • 19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。
  • 完整集合包含9,178,275张图像。

关于Open Images

Open Images是谷歌在2016年推出的大规模图像数据集,包括大约900万张图片,标注了数千个图像类别。

2019年,谷歌释出Open Images V5,新增了对图像分割掩码的注释。分割对象样本近280万个,覆盖350个类别,成为最大分割掩码数据集。

并且从2018年开始,谷歌就基于Open Images数据集发起了系列挑战赛。

谷歌希望,通过Open Images V6,能进一步刺激人们对真实场景的理解。

传送门

Open Images V6下载地址:https://storage.googleapis.com/openimages/web/index.html

谷歌博客:https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。