900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释
鱼羊 发自 云凹非寺
量子位 报道 | 公众号 QbitAI
谷歌的900万注释图像数据集Open Images,再次进化。
这一次的V6版本,不仅增加1400种视觉关系注释类型,新增2350万个经过人工验证的图像级标签,包含250万个人类动作注释,还更新了新特性局部叙事(localized narratives)。
所谓局部叙事,是一种全新的多模式注释形式,包括所描述对象的同步语音、文本和鼠标轨迹。
△图源:谷歌博客
在Open Images V6中,有50万图像适用这一模式。
同时,谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。
局部叙事
Open Images的这一次升级,重头戏就在于加入了局部叙事。
在Open Images V6中,新增了507444个局部叙事。
谷歌表示,这部分注释数据里,鼠标轨迹总长度约为6400公里;要念完所有的文本叙述,需要1.5年时间。
在研究、利用视觉和语言之间的联系时,通常会使用图像字幕,即图像及其描述文本之间的配对。
那么问题来了,文本中每个单词都对应到图像的哪一个部分呢?
局部叙事,这时就派上了用场。
这些注释由注释人员完成。注释人员在念出图像描述文本的同时,会将鼠标移动到单词对应的图像区域上。
并且,他们会手动纠正自动语音识别结果,确保语音、文本和鼠标轨迹三者对应正确且同步。
另一个有趣的应用点是,这些图像为探索人们描述图像的方式提供了潜在的研究途径。
因为谷歌并没有指定注释人员要用什么方式去移动鼠标,所以在这些注释中,你可以看到不同的指示对象的方式。
这可能会为新用户界面的设计带来灵感。
新的视觉关系,人类动作和图像级注释
除了局部叙事,Open Images V6还新增了大量新的视觉关系和人类动作注释。
比如在一张狗狗叼飞盘的图像中,除了狗狗和飞盘会被各自标记出来,“捕捉”这个动作也会被标记出来。
而对计算机视觉而言,理解人的行为也是一大研究重点。于是,Open Images V6中现在一共包含250万个人类动作,比如“跳跃”、“微笑”、“躺下”等等。
并且,在添加了2350万个新的经过人工验证的图像级标签后,Open Images V6里的图像级标签达到5990万个,涵盖19957个不同类别。
目前,Open Images V6共包含:
- 600种类别的可框住对象子集。包含1,743,042张训练图像,41,620张图像的验证集和125,436张图像的测试集。
- 19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。
- 完整集合包含9,178,275张图像。
关于Open Images
Open Images是谷歌在2016年推出的大规模图像数据集,包括大约900万张图片,标注了数千个图像类别。
2019年,谷歌释出Open Images V5,新增了对图像分割掩码的注释。分割对象样本近280万个,覆盖350个类别,成为最大分割掩码数据集。
并且从2018年开始,谷歌就基于Open Images数据集发起了系列挑战赛。
谷歌希望,通过Open Images V6,能进一步刺激人们对真实场景的理解。
传送门
Open Images V6下载地址:https://storage.googleapis.com/openimages/web/index.html
谷歌博客:https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
— 完 —
- 从骁龙8至尊版,我看到了AI手机的未来 | 智在终端2024-12-17
- o1被曝“心机深”:逃避监督还会撒谎,骗人能力一骑绝尘2024-12-09
- 低成本机器人“皮肤”登上Nature子刊:实现三维力的自解耦,来自法国国家科学研究中心&香港大学2024-11-23
- OpenAI重夺竞技场第一,但这波靠的是4o2024-11-21