900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释

鱼羊 2020-02-27 13:09:32 来源：量子位

鱼羊发自云凹非寺
量子位报道 | 公众号 QbitAI

谷歌的900万注释图像数据集Open Images，再次进化。

这一次的V6版本，不仅增加1400种视觉关系注释类型，新增2350万个经过人工验证的图像级标签，包含250万个人类动作注释，还更新了新特性局部叙事（localized narratives）。

所谓局部叙事，是一种全新的多模式注释形式，包括所描述对象的同步语音、文本和鼠标轨迹。

△图源：谷歌博客

在Open Images V6中，有50万图像适用这一模式。

同时，谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。

局部叙事

Open Images的这一次升级，重头戏就在于加入了局部叙事。

在Open Images V6中，新增了507444个局部叙事。

谷歌表示，这部分注释数据里，鼠标轨迹总长度约为6400公里；要念完所有的文本叙述，需要1.5年时间。

在研究、利用视觉和语言之间的联系时，通常会使用图像字幕，即图像及其描述文本之间的配对。

那么问题来了，文本中每个单词都对应到图像的哪一个部分呢？

局部叙事，这时就派上了用场。

这些注释由注释人员完成。注释人员在念出图像描述文本的同时，会将鼠标移动到单词对应的图像区域上。

并且，他们会手动纠正自动语音识别结果，确保语音、文本和鼠标轨迹三者对应正确且同步。

另一个有趣的应用点是，这些图像为探索人们描述图像的方式提供了潜在的研究途径。

因为谷歌并没有指定注释人员要用什么方式去移动鼠标，所以在这些注释中，你可以看到不同的指示对象的方式。

这可能会为新用户界面的设计带来灵感。

新的视觉关系，人类动作和图像级注释

除了局部叙事，Open Images V6还新增了大量新的视觉关系和人类动作注释。

比如在一张狗狗叼飞盘的图像中，除了狗狗和飞盘会被各自标记出来，“捕捉”这个动作也会被标记出来。

而对计算机视觉而言，理解人的行为也是一大研究重点。于是，Open Images V6中现在一共包含250万个人类动作，比如“跳跃”、“微笑”、“躺下”等等。

并且，在添加了2350万个新的经过人工验证的图像级标签后，Open Images V6里的图像级标签达到5990万个，涵盖19957个不同类别。

目前，Open Images V6共包含：

600种类别的可框住对象子集。包含1,743,042张训练图像，41,620张图像的验证集和125,436张图像的测试集。
19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。
完整集合包含9,178,275张图像。

关于Open Images

Open Images是谷歌在2016年推出的大规模图像数据集，包括大约900万张图片，标注了数千个图像类别。

2019年，谷歌释出Open Images V5，新增了对图像分割掩码的注释。分割对象样本近280万个，覆盖350个类别，成为最大分割掩码数据集。

并且从2018年开始，谷歌就基于Open Images数据集发起了系列挑战赛。

谷歌希望，通过Open Images V6，能进一步刺激人们对真实场景的理解。

传送门

Open Images V6下载地址：https://storage.googleapis.com/openimages/web/index.html

谷歌博客：https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

— 完 —

数据集谷歌

鱼羊

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释

△图源：谷歌博客

局部叙事

新的视觉关系，人类动作和图像级注释

关于Open Images

传送门

相关阅读

八成名校AI教授，都拿过谷歌微软亚马逊们的钱

MIT博士生、北大校友，利用自监督算法，解决了数据集中这一常见的“难题”

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

o1突发内幕曝光？谷歌更早揭示原理，大模型光有软件不存在护城河

谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

谷歌大罢工组织者离职：自曝不得不走，“遭遇秋后算账”

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此