| Title | Unified Perceptual Parsing for Scene Understanding |
|---|---|
| 标题 | 统一感知解析网络用于场景理解 |
| pdf地址 | https://arxiv.org/pdf/1807.10221.pdf |
摘要
人类对世界的视觉理解是多层次的,可以轻松分类场景,检测其中的物体,乃至识别物体的部分、纹理和材质。在本文中,旷视科技提出一种称之为统一感知解析(Unified Perceptual Parsing/UPP)的新任务,要求机器视觉系统从一张图像中识别出尽可能多的视觉概念。同时,多任务框架 UPerNet 被提出,训练策略被开发以学习混杂标注(heterogeneous annotations)。旷视科技在 UPP 上对 UPerNet 做了基准测试,结果表明其可有效分割大量的图像概念。这一已训练网络进一步用于发现自然场景中的视觉知识。
1. 贡献
本文贡献可归纳为如下 3 个方面:
- 提出一种新解析任务——统一感知解析(UPP),它需要系统一次性解析多层次视觉概念;
- 提出一种带有层级结构的全新网络——UPerNet,可学习不同图像数据集中的差异化数据;
- 该网络可实现联合推理,并发掘图像之中丰富的视觉知识。