尺度自适应网络的语义图像分割

Semantic Image Segmentation by Scale-Adaptive Networks

摘要
索引词
一．引言
二．相关工作

A.尺度变化的方法
B.融合方法

三．可缩放的网络

A.问题表述
B.网络架构
共享网络
D.尺度自适应分支
E.尺度估算器
F.损失设置

四．实验内容

A.PASCAL-人-部分

五，结论与未来工作

Semantic Image Segmentation by Scale-Adaptive Networks

Zilong Huang , Chunyu Wang , Xinggang Wang , Wenyu Liu , Senior Member, IEEE, and Jingdong Wang

IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 29, 2020

摘要

义图像分割是一个重要但尚未解决的问题。主要挑战之一是对象比例尺的较大可变性。为了解决这一尺度问题，我们提出了一种尺度自适应网络（SAN），该网络由多个分支组成，每个分支负责对一定尺度范围内的对象进行分割。对于给定的图像，SAN首先计算一个密集比例尺图，该比例尺图指示每个像素的比例尺，该比例尺由包围对象的尺寸自动确定。然后根据比例图将不同分支的功能融合在一起，以生成最终的分割图。为了确保每个分支确实能够学习到一定比例的特征，我们提出了一个比例引发的地面真相图，并为最终分支增加了相应分支的比例感知分割损失。在PASCAL-Person-Part，PASCAL VOC 2012和Look in Person数据集上进行的大量实验表明，我们的SAN可以处理对象比例的较大差异，并且性能优于最新的语义分割方法。

索引词

语义对象解析，人工解析，比例自适应。

一．引言

语义图像分割是为图像中的每个像素分配语义类别标签的任务，并且在最近的论文[1] –[9]中得到了积极的研究。可以根据预先定义的类别标签集将许多应用程序分类为该任务，例如人员重新识别[10]，人体部分分割[2]，动作分割[11]，服装解析[12]和姿势估计[13]。深度卷积神经网络由于强大的端到端学习功能而大大提高了图像分割问题。例如，[5]提出了一种全卷积网络（FCN），该网络可以从任意大小的输入图像中预测密集的输出。在没有其他机制的情况下，该方法已超越了以前的最新技术，成为现代语义分割方法的基石。考虑到图像中的像素不是完全独立的，[14]提出在CNN输出的顶部建立一个完全连接的条件随机场（CRF）。实验结果表明，该算法可以获得更一致的分割效果。为了获得密集的输出，[15]提出了扩展的卷积来支持接收场的指数扩展而不会降低分辨率。并且，[16]提出了一种解码器网络，将低分辨率编码器特征图映射到全输入分辨率特征图，以进行像素分类。参考文献[17]提出了一种混合膨胀卷积，以减轻后来由标准膨胀卷积操作引起的“网格问题”。尽管基于CNN的方法取得了显着进展，但它们具有固定接收域的显着缺点。因此，它们只能完美地分割单个比例的对象，并且对于更大或更小的对象，其性能会下降。在[18]中也有类似的观察。更具体地说，对于大型物体，由于该方法仅观察局部信息，因此包围的像素可能具有不一致的标签；相反，较小的对象通常被忽略，并被分类为背景。为了解决尺度问题，DeepLab-MSc-LargeFOV [14]利用了跳过网络架构，该架构利用来自网络不同层的特征来获得多尺度特征。参考文献[19]采用了一个对象检测器，并将检测到的图像区域缩放到适当的比例以完善解析。基于注意力的方法[2]和Deeplabv2 [20]都将多尺度输入馈入CNN以生成多尺度预测。尺度自适应卷积[21]和可变形卷积网络[22]改进了有效具有动态和可学习接收场的卷积层。
在这项工作中，我们提出了一个尺度自适应网络（SAN）来解决这个问题。在训练阶段，SAN首先根据训练数据集中边界框的面积将对象比例（大小）量化为T集。对于训练图像，地线标记不仅包括类别标签，而且还包括从1到T的值的比例标签。像素的比例标签由封闭对象的比例确定或近似。
SAN由共享的完全卷积网络组成，后跟T分支。有关结构的概述，请参见图1。我们将图中的三个分支可视化。每个分支负责特定比例对象的分割。因此，在训练阶段，每个分支将为其相应比例尺的像素预测类别标签，每个分支的输出称为比例尺诱发的分割图。请查看灰色框中可视化的地面真相注释。除类别标签外，SAN还可以预测每个像素的比例标签，从而为整个图像生成比例蒙版图。比例尺掩码图对每个像素属于每个比例尺的概率进行编码。T分支的输出特征图根据比例蒙版进行融合以生成最终的类标签图。
尺度自适应网络的语义图像分割
图1.计划的尺度自适应网络概述。在卷积网络的顶部称为共享网络，我们放置了多个由多个卷积层组成的（T = 3）比例缩放分支，以分割相应比例的对象。比例尺估计器将分支生成的级联特征图作为输入，并生成比例尺蒙版。最后，比例尺蒙版用于选择和融合由比例尺自适应分支生成的高质量结果到最终的分割图中。整个网络在多级监督下（虚线）进行培训。
图2显示了一个语义人体部位分割结果和SAN中间结果的示例。中间一栏表示每个分支实际上可以对特定比例的像素进行预测，右侧一栏表示我们的方法可以准确地预测比例蒙版的概率图。左列中的最终输出是每个比例尺诱发的分割图与相应比例尺掩码的乘积之和。这种由比例引起的融合确实比单纯地对特征图求和要好，因为每个分支可能会错误地用不对应的比例来分割对象，简单地对特征图求和可能会导致不良结果。除了按像素分类标签外，该方法还需要边界框注释，该方法更便宜且更有效。与按像素分类标签相比，附加注释（即对象边界框）的成本较低。
尺度自适应网络的语义图像分割
图2.一个语义人体部位分割结果和SAN中间结果的示例。（a）输入图像和最终的人工解析结果。（b）比例尺诱发的分割图（从上到下对应三个比例尺：小，中，大）。（c）比例尺遮罩（从上到下对应三个比例尺：小，中，大）。最终的人为解析结果是由每个比例尺所引起的分割图之和产生相应的比例尺蒙版。
有许多用于对象分割的数据集，例如Pascal-Person-Part [23]，LIP [24]，Fashionista [25]和Penn-Fudanpedestrians [26]，其中Pascal-Person-Part和LIP的尺度变化最大。因此，我们选择Pascal-Person-Part和LIP数据集，通过对人体部位分割的大量实验来评估我们的方法。实验结果表明，我们的SAN优于以前的最新方法，这证明我们的方法可以处理对象比例的可变性。同时，为验证我们方法的泛化能力，我们在PASCAL VOC 2012和Cow-HorseSheep数据集上进行了实验，并提出了优于其他方法的竞争性能。
我们的主要贡献概述如下：
•我们提出了一个尺度自适应网络，该网络由共享网络，尺度自适应分支，尺度估计器和基于尺度的融合网络组成，这些网络生成最终的分割图。比例尺自适应网络可以处理对象比例尺的较大变化。
•提出的比例尺自适应分支可以分割相应比例尺的对象，而无需特征金字塔[27]或图像金字塔[2]。
•我们使用在PASCAL-PersonPart，PASCAL VOC 2012，Cow-Horse-Sheep和LIP上训练的尺度自适应网络来实现出色的性能，并使用单个模型获得最佳的精度。
本文的其余部分安排如下。我们首先在第二节中回顾相关工作，并在第三节中描述我们的网络架构。在第四节中，讨论了学习尺度自适应网络的详细过程，并分析了实验结果。第五节介绍了我们的结论和未来的工作。

二．相关工作

最近几年，人们对语义对象解析有了新的兴趣。参考文献[28]在基于零件的对象分割的生成模型中执行概率推断，[29]构建了有效的全连接条件随机场（FCRF）[30]，以共同同时预测最终的对象和零件标签。参考文献[31]提出了Graph LSTM来建模超像素上的空间关系，以进行语义对象解析。我们的工作密切关注分割对象解析任务中的缩放问题。

A.尺度变化的方法

传统的语义对象解析方法[13]，[28]，[32]是在预先设定的已知尺度下，在受限条件下执行推理，而这种尺度在应用于自然条件下解析人类实例时会受到限制，因为现实世界图像中的人类常常在姿势、尺度上变化，并且可能被遮挡或高度变形。
有许多工作来解决尺度问题，以改善对象检测或语义分割。参考文献[19]通过采用通用的对象检测器并对每个检测执行对象部分分割来划分和解决该问题。一旦检测到对象，就可以获取对象的比例，然后可以将其缩放到适当的比例以细化其解析。这些自上而下的方法直接利用现有的对象检测技术进行语义对象解析。但是该框架严重依赖于对象检测器的性能，这意味着如果对象检测器发生故障，则没有恢复的机会。
在语义分割和对象检测中，跳转网结构利用网络不同层次的特征，也是语义分割和目标检测的常用方法。例如，DeepLab-MSc-LargeFOV [14]将两个卷积层附加到前四个最大池化层的每一个的输入图像和输出上。由上述卷积层生成的网络级联特征图到主网络的最后一层特征图和生成的分段图。但这对于对象尺寸的较大变化不是有效的解决方案，并且性能提升并不显着。另一种常见的方法是将多尺度输入馈送到完全卷积网络。例如，[2]将输入图像的大小调整为三个比例，以产生三个比例的特征，并使用一种注意力机制来学习对每个像素位置的多比例特征进行轻加权，以生成最终的分割图。参考文献[33]将包含单个网络的多个副本（均共享相同权重）的多尺度卷积网络应用于输入图像的拉普拉斯金字塔版本的不同尺度，并融合了所有尺度的特征。比例自适应卷积[21]增加了新的比例回归层，以动态推断位置自适应比例系数，该系数用于调整卷积块的大小。可变形卷积网络[22]添加了另一个卷积层，以学习标准卷积中常规网格采样位置的2D偏移。
尺度自适应网络的语义图像分割
图3.生成比例尺诱导的地面真实地图以监督比例尺自适应分支以学习多比例尺特征的方法。假设网络具有三个分支（T = 3），则生成三个比例尺诱导的地面真相图，并且图中的灰色区域指示不需要进行反向计算的位置。我们仅考虑边界框中的像素。
与上述方法不同，我们提出了一种尺度自适应网络，该网络以单个尺度图像为输入，并使用尺度自适应分支生成多尺度特征。此方法之后是基于比例的融合，以生成最终的分割图。比例自适应分支不是使用跳网生成多尺度特征，而是在如图3所示的由比例引起的地面真相图的监督下，学习更多抽象的多尺度结构。更多细节将在第三部分给出。

B.融合方法

为了合并来自多尺度特征的预测，有三种常见的方法：尺度上的平均池（[34]），尺度上的最大池（[35]）或使用学习模型（轻度加权）的注意力模型（[2]）。在文献[2]的启发下，我们提出联合学习尺度估计器来产生尺度掩模。标尺掩码指示哪个分支负责每个标尺和位置。我们模型的最终输出是由所有比例尺上的分割图的加权总和产生的。

三．可缩放的网络

A.问题表述

语义分割是为了预测每个像素的类别，并生成一个分割图。形式上，给定宽度和高度分别为W和H的图像I，按像素类别标记M∈RW×H，其中映射中的每个值mxy表示像素pxy是否属于类别c∈{1 ，…，C}，其中C是关注类别的数量。我们还有边界框批注B。目的是输出分割图。我们还需要一个比例掩码Q∈RW×H，其中每个值qxy表示像素pxy所属对象的比例。在本文中，我们避免了繁琐的注释来获得比例尺蒙版，而只是根据每个对象的边界框的面积对其进行估计，然后将其量化为T个离散比例尺。考虑比例尺遮罩，我们将分割图M分解为T个图{M1，…，MT}，其中每个图Mt对应于对象比例为t的分割图。如图3所示，首先假设T = 3，然后按边界框区域的平方根对对象进行排序。接下来，找到两个阈值以将比例空间划分为三个子空间。每个小尺度子空间具有相同数量的对象实例。然后，通过与阈值进行比较，每个边界框都具有类别c和标度t。边界框bc，t∈B中像素类别标记M中具有相同类别c的像素将标记为刻度t。因此，获得了像素级别的比例图和诱导图。

B.网络架构

网络结构如图1所示。它由一个共享网，三个比例尺自适应分支，一个比例尺估算器和一个基于比例尺的融合子网组成，该子网生成最终的分割图。输入图像通过共享网络和T个比例尺自适应分支，然后生成T个特征图{F1，…，FT}，然后将它们输入到比例尺分割图生成器中。有T个单独的分割图生成器，每个生成器的输入是单个特征图Ft。输出分割图为{¯M1，…，¯MT}。T特征图{F1，…，FT}被串联在一起，作为比例估计器的输入。比例尺估计器的输出是一个软比例尺蒙版Q∈RW×H×T，其中条目qxyt表示位置（x，y）的像素（像素所属的对象）的比例尺是t。我们将最终的分割图M表示为所有比例尺得分图的加权和，
尺度自适应网络的语义图像分割
T是许多离散量表。标度自适应分支产生标度t的得分图，表示为Mt。表示逐元素乘法。通过划分比例尺空间，每个分支可以处理较小的比例尺可变性。同时，比例尺遮罩会选择分支的精细分割区域。最后提出的方法采用双线性插值将最终层的分割图上采样到原始图像分辨率。这样，我们的网络可以实现出色的性能。

共享网络

FCN [5]已被证明在语义图像分割中是成功的[36]–[38]。在本小节中，我们简要回顾了DeepLab [14]模型，该模型是我们方法中的共享网络。DeepLab采用[39]的最新分类网络的16层架构（即VGG-16网络）。将该网络修改为完全卷积[5]，从而生成密集的特征图。特别是，原始VGG-16net的最后一个完全连接的层变成了卷积层（例如，最后一层具有大小为1x1的空间卷积核）。由于存在多个最大合并和跨步（下采样），原始VGG-16网络的空间抽取因子为32。DeepLab通过使用圆角（带孔）算法将其缩减为8 [40]。

D.尺度自适应分支

每个比例尺自适应分支均由几个卷积层组成，从而生成比例尺引起的分割图。与跳过网体系结构不同，后者通过利用来自不同级别层的要素或将多尺度输入馈入FCN来生成多尺度特征。支持T标度的分支共享由共享网络生成的相同输入特征。我们观察到，即使比例缩放分支具有相同的网络体系结构和相同的初始化权重，它们也可以在比例引发的地面真相图的监视下学习更多抽象的多比例结构。

E.尺度估算器

提出的尺度估计器模型以T个特征图F的级联作为输入，它由两个卷积层组成：第一层有512个内核大小为3x3的过滤器，第二层有（T +1）个内核大小为1x1的过滤器；然后，它们通过SoftMax层生成具有（T + 1）通道：背景和T离散尺度的软概率图H∈RW×H×（T + 1）。注意，H的通道数与分支数不同。为了使它们同时匹配并保留背景信息，我们将软概率图¯H转换为软标度掩码Q，
尺度自适应网络的语义图像分割
其中H1是背景信道的概率，T是离散尺度的数量。

F.损失设置

如图1所示，它是一个多任务学习网络。我们不仅介绍最终分割图上的损失，还介绍了两种新颖的损失：三种比例引起的分割损失和一种比例估计损失。在本文中，我们讨论了这些损失如何帮助指导我们的模型生成分割图{M1，…，¯MK}和比例蒙版Q，这对对象解析任务带来了显着改进。
分割损失：我们的分割损失函数是CNN输出图中每个空间位置的交叉熵项的总和，可以写为：
尺度自适应网络的语义图像分割
l是一个交叉熵损失。这种损失指导了我们网络的组成部分合作生成最终的分割图。
2）比例引起的分割损失：比例引起的分割损失是在估计的比例自适应分割图上形成的。由于每个比例尺适应分支的目标是分割相应比例尺的对象，因此会形成损失，以补偿比例尺引起的地面实况图（而不是整个地面实况图）的估计差异像深度监督（[41]）和额外监督（[2]））。损耗记为{1（M1，¯M1），…，T（MT，¯MT）}，它们相加，
尺度自适应网络的语义图像分割
3)术语pc i，j和ˆ pc i，j是真实的和预测的概率，分别在位置x，y处属于c类。我们仅考虑位于边界框Bt中的像素，以在背景和前景之间保持平衡。比例尺引起的分割损失直接指导分支学习不同比例尺的特征。通过控制不同尺度的信息流，这种损失使多个分支能够按其相应尺度分割对象和零件。
4）比例尺估算损失：比例尺损失是由地面真实比例尺形成的，
尺度自适应网络的语义图像分割
比例尺蒙版的示例是由我们的比例尺估计器生成的，如图4所示。比例尺估计器在人体分割方面做类似的工作，但每个分类器仅对具有相应比例尺的人做出响应。比例尺蒙版用于选择由比例尺支持的分支生成的高质量结果，并将其融合到最终的分割图中。
5)总损失：将分割图估计损失，比例尺引起的分割损失和比例估计损失结合起来，总损失L可写为：尺度自适应网络的语义图像分割
我们使用带有小批量的随机梯度下降（SGD）算法来优化上述目标函数。

尺度自适应网络的语义图像分割
图4.由我们的模型生成的比例尺蒙版的一些示例，我们有T = 3比例尺自适应分支。（a）输入图像。（b）比例尺罩捕捉小型人员。（c）刻度尺面罩集中于中档人。（d）口罩蒙住大人物。

四．实验内容

本节首先介绍我们的实施细节和实验设置。然后，我们从各个方面分析和评估建议的网络。在公共数据集上进行了广泛的实验，例如Pascal-Person-Part数据集，Cow-Horse-Sheep数据集，LIP数据集和Pascal VOC 2012。
实施细节：我们的尺度自适应网络基于公开可用的深度学习模型，并具有两种形式：基于VGG-16 [39]的SAN和基于Resnet-101 [42]的SAN。我们根据FCN [5]的程序对ImageNet [43]预先训练的VGG-16和ResNet-101网络的模型权重进行微调，以使其适应语义分割任务。
基于VGG-16的SAN：我们将VGG-16的最后一层中的1000-wayImageNet分类器替换为目标对象具有相同数量的任务语义类的分类器。在[15]之后，我们删除了最后两个汇合层，并且对于每个汇合层，所有后续层中的卷积滤波器都被放大了2倍。我们将前10个卷积层（从conv1_1到conv4_3）作为共享网络。在conv4_3层之后，每个由尺度引起的分支网均由6个卷积层组成。提出的比例估计器将卷积fc7特征作为输入。
基于Resnet-101的SAN：对Resnet-101的修改类似于基于VGG16的模型。我们将前100个卷积层作为共享网络。每个由尺度引起的分支均由6个卷积层组成：第一层有1024个过滤器，内核大小为1x1；第二层由2个卷积层组成。第二层有1024个过滤器，内核大小为3x3，扩展为12，以获得较大的视野；第三，第四和第五层有1024个过滤器，内核大小为3x3。第六层有K（内核大小为1x1）的过滤器。所提出的比例估计器将比例感应分支网中第三层的输出作为输入。
训练：使用带有小批量的SGD进行培训。初始学习率为0.001（对于新添加的卷积层为0.01），并且我们采用“poly”学习率策略（学习率乘以1-（iter max_iter）power），功率为0.9。我们使用0.9的动量和0.0005的权重衰减。通过随机缩放（从0.5到2.0）来增强训练图像，然后从生成的图像中随机裁剪出高分辨率块（505×505）。对于PASCALPerson-Part数据集，我们采用批量大小= 1、60K迭代；对于CowHorse-Sheep数据集，批处理大小= 1、12K迭代；LIP数据集的批处理大小= 1，300K迭代。
表I部分以均值IOU.PASCAL方式进行的人为分析的准确性（％）我们将两种模型与其他最新方法进行了比较
尺度自适应网络的语义图像分割
评估指标：对PASCAL-人-部分数据集，Cow-Horse-Sheep数据集，LIP数据集和Pascal VOC 2012采用标准联合会标（IOU）标准和逐像素精度进行评估。
可重复性：通过扩展Caffe [44]框架来实现所提出的尺度自适应网络。所有网络均在具有12GB内存的单个NVIDIA GeForce GTX TITAN X GPU上进行培训。源代码位于https://github.com/speedinghzl/Scale-Adaptive-Network。

A.PASCAL-人-部分

1）数据集：我们使用PASCAL-Person-Part（[23]）数据集进行人体部分解析实验，该数据集是PASCAL VOC 2010数据集的子集。具体来说，数据集包含每个人的详细零件注释，包括眼睛，鼠标等。我们将注释合并到背景和六个人的零件类别中：头部，躯干，上/下臂和上/下腿。我们仅使用包含人的图像用于训练（1716张图像）和验证（1817张图像）。
2）与最新技术的比较：如表I所示，我们将SAN的性能与基于两个不同共享网络的先前方法进行了比较。在Pascal-Person-Part测试数据集上，它获得了最高的平均交叉-联合得分。只对Pascal-Person-Part测试数据集使用densityCRF [30]方法作为后处理步骤，以进行公平比较。
我们提供了其他方法的这些结果以供参考，但应强调的是，不应将它们的结果与我们的方法进行简单比较，因为这些方法是在不同（和更大）的训练集或不同的基本网络上训练的。 Deeplabv2 [20]利用Resnet-101作为基本网络，并在MS-COCO [47]数据集上进行了预训练，其他方法则将VGG-16用作基本网络，而无需使用其他数据集。为了公平起见，我们将VGG16和Resnet-101作为共享网络，并构建两个模型：SAN（VGG-16）和SAN（Resnet-101），同时，它们在相同的设置下进行训练，即预训练SAN MS-COCO数据集上的（Resnet-101）与Deeplabv2相同。
重要的是要注意，前四个基线代表了三种不同的方法来处理对象比例的变化。 DeepLab-MS-LargeFOV [14]采用跳网架构，通过完全连接的条件随机场（CRF）[30]为DeepLab-LargeFOV添加了后处理步骤。Multi-Scale Attention [2]为DeepLab-LargeFOV模型提供大小调整为三个固定比例（0.5、1.0和1.5）的图像，然后采用一个比例注意模型来处理对象解析中的比例变化。注意+ SSL [24]将人的姿势监督纳入注意方法[2]。HAZN [19]采用检测-分割级联网络，一旦检测到物体，就获得物体的比例尺，然后将图像区域缩放到适当的比例尺以细化解析。
我们的SAN（VGG-16）模型超越了这些方法，并获得了更好的结果，显着提高了所有部分的分割精度。此外，Deeplabv2利用Resnet101作为基本网络，并采用了多尺度输入策略，例如多尺度注意。我们的SAN（Resnet-101）模型也超越了此方法，并获得了更好的结果。
LG-LSTM [45]和Graph-LSTM [31]都对超像素的空间关系进行建模，以进行语义对象解析。 Part-Net [46]采用了编码器-解码器框架来解析图像。我们的方法仍然取得了更好的结果。
3)Ls的影响：我们在表II中报告了结果。基准网络由一个共享网络和一个分支组成，该分支具有与[14]相似的体系结构。我们发现，所提出的有损尺度估计器在基于VGG-16的模型和基于Resnet-101的模型中带来了5.4％和2.9％的改进。Ls指导模型估计用于比例尺诱导的分割图融合的对象的比例尺。同时，它间接控制在反向传播过程中分别流入分支的不同尺度的信息。

表II与PASCAL-PERSON-PARTDATASET上适用于尺度自适应网络的VGG-16和RESNET-101进行比较的其他最新方法的比较。AUG：通过随机重新检查输入和随机镜像来增强数据。Ls：添加尺度估算器。Lsm：在分支机构中添加尺度诱导的SUPERVISION。COCO：模型在MS-COCO.CRF上进行了预处理：使用完全连接的条件随机场（CRF）[30]作为后处理步骤
尺度自适应网络的语义图像分割
表III分支机构监管的不同设置

4）Lsm的影响：如表II所示，在基于VGG-16的模型和基于Resnet101的模型中，比例尺引起的分割图估计损失可带来5.88％和5.1％的改进。基于Ls效应，在基于VGG-16的模型和基于Resnet-101的模型中，尺度导致的分割损失仍带来1.4％和2.4％的改进。它直接指导分支学习不同比例的特征，并带来更明显的改进。我们认为Lsm和Ls在控制不同尺度的信息流和引导分支学习多尺度特征方面具有相同的作用。
为了进一步证明Lsm的效果，我们在分支机构的不同监管设置下进行了额外的实验。在表III中，完全监督和比例诱导监督分别表示使用整体地面地图和比例诱导地面地图。为了避免干扰，我们将Ls损失和所有分支输出的和作为最终的分割图移除。当三个分支具有相同的视场（FOV）[14]和相同的初始化时，使用比例诱导监督，可以获得59.04％的平均IOU的性能，这比完全监督要好2.12％。尽管三个部门的先验视野不同，但使用尺度诱导监督的部门比完全监督部门的绩效要高0.82％。同时，我们注意到了一个有趣的现象，即在尺度诱导的监督下，采用相同视野的分支所获得的性能要优于具有先验视野的不同视野。但是在完全监督下，结论是相反的。这是因为即使具有相同的网络体系结构和相同的初始化，自适应尺度的分支也可以在尺度诱发的地面真相图的监督下学习多尺度结构。当我们将先验设置为不同的视野时，它可能与实际比例分布不匹配。在充分的监督下，先验确实有效。
表4 人均帕斯帕森-帕丁条款对人体实例的零件解析精度（％）
尺度自适应网络的语义图像分割

五，结论与未来工作

我们提出了一个可缩放比例的网络来解析自然图像中的对象，并证明了在相同的实验条件下，我们的方法优于以前的最新方法。我们还确定了将尺度信息嵌入DCNN的有效性。我们的实验表明，处理对象比例的可变性可以极大地提高对象部分分割/解析的性能。对于将来的工作，我们将缩短测试时间并考虑零件之间的空间关系。