900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

点击我爱计算机视觉标星，更快获取CVML新技术

本文转自量子位。

鱼羊发自云凹非寺
量子位报道 | 公众号 QbitAI

谷歌的900万注释图像数据集Open Images，再次进化。

这一次的V6版本，不仅增加1400种视觉关系注释类型，新增2350万个经过人工验证的图像级标签，包含250万个人类动作注释，还更新了新特性局部叙事（localized narratives）。

所谓局部叙事，是一种全新的多模式注释形式，包括所描述对象的同步语音、文本和鼠标轨迹。

△图源：谷歌博客

在Open Images V6中，有50万图像适用这一模式。

同时，谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。

局部叙事

Open Images的这一次升级，重头戏就在于加入了局部叙事。

在Open Images V6中，新增了507444个局部叙事。

谷歌表示，这部分注释数据里，鼠标轨迹总长度约为6400公里；要念完所有的文本叙述，需要1.5年时间。

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

在研究、利用视觉和语言之间的联系时，通常会使用图像字幕，即图像及其描述文本之间的配对。

那么问题来了，文本中每个单词都对应到图像的哪一个部分呢？

局部叙事，这时就派上了用场。

这些注释由注释人员完成。注释人员在念出图像描述文本的同时，会将鼠标移动到单词对应的图像区域上。

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

并且，他们会手动纠正自动语音识别结果，确保语音、文本和鼠标轨迹三者对应正确且同步。

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

另一个有趣的应用点是，这些图像为探索人们描述图像的方式提供了潜在的研究途径。

因为谷歌并没有指定注释人员要用什么方式去移动鼠标，所以在这些注释中，你可以看到不同的指示对象的方式。

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

这可能会为新用户界面的设计带来灵感。

新的视觉关系，人类动作和图像级注释

除了局部叙事，Open Images V6还新增了大量新的视觉关系和人类动作注释。

比如在一张狗狗叼飞盘的图像中，除了狗狗和飞盘会被各自标记出来，“捕捉”这个动作也会被标记出来。

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

而对计算机视觉而言，理解人的行为也是一大研究重点。于是，Open Images V6中现在一共包含250万个人类动作，比如“跳跃”、“微笑”、“躺下”等等。

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

并且，在添加了2350万个新的经过人工验证的图像级标签后，Open Images V6里的图像级标签达到5990万个，涵盖19957个不同类别。

目前，Open Images V6共包含：

600种类别的可框住对象子集。包含1,743,042张训练图像，41,620张图像的验证集和125,436张图像的测试集。
19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。
完整集合包含9,178,275张图像。

关于Open Images

Open Images是谷歌在2016年推出的大规模图像数据集，包括大约900万张图片，标注了数千个图像类别。

2019年，谷歌释出Open Images V5，新增了对图像分割掩码的注释。分割对象样本近280万个，覆盖350个类别，成为最大分割掩码数据集。

并且从2018年开始，谷歌就基于Open Images数据集发起了系列挑战赛。

谷歌希望，通过Open Images V6，能进一步刺激人们对真实场景的理解。

传送门

Open Images V6下载地址：
https://storage.googleapis.com/openimages/web/index.html

谷歌博客：
https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

数据标注与增广交流群

欢迎关注数据标注工具与使用、增广方法，扫码添加CV君拉你入群，如已为CV君其他账号好友请直接私信，

（请务必注明比如：数据）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：805388940。

（不会时时在线，如果没能及时通过验证还请见谅）

900万注释图像数据集升级了！谷歌开放Open Images V6，首增语音、文本、鼠标轨迹同步注释...

长按关注我爱计算机视觉

鱼羊 发自 云凹非寺量子位 报道 | 公众号 QbitAI

△图源：谷歌博客

局部叙事

新的视觉关系，人类动作和图像级注释

关于Open Images

传送门

鱼羊发自云凹非寺
量子位报道 | 公众号 QbitAI