Unified Perceptual Parsing for Scene Understanding(UPerNet)

Title	Unified Perceptual Parsing for Scene Understanding
标题	统一感知解析网络用于场景理解
pdf地址	https://arxiv.org/pdf/1807.10221.pdf

摘要

人类对世界的视觉理解是多层次的，可以轻松分类场景，检测其中的物体，乃至识别物体的部分、纹理和材质。在本文中，旷视科技提出一种称之为统一感知解析（Unified Perceptual Parsing/UPP）的新任务，要求机器视觉系统从一张图像中识别出尽可能多的视觉概念。同时，多任务框架 UPerNet 被提出，训练策略被开发以学习混杂标注（heterogeneous annotations）。旷视科技在 UPP 上对 UPerNet 做了基准测试，结果表明其可有效分割大量的图像概念。这一已训练网络进一步用于发现自然场景中的视觉知识。

1. 贡献

本文贡献可归纳为如下 3 个方面：

提出一种新解析任务——统一感知解析（UPP），它需要系统一次性解析多层次视觉概念；
提出一种带有层级结构的全新网络——UPerNet，可学习不同图像数据集中的差异化数据；
该网络可实现联合推理，并发掘图像之中丰富的视觉知识。

2. 模型介绍

Unified Perceptual Parsing for Scene Understanding(UPerNet)