论文笔记-Detail Preserving Depth Estimation from a Single Image Using Attention Guided Networks

主要方法

1. DFE
2. DMG

2.1 AFB
2.2 CRB

现有的单目深度估计网络常常没有细节信息，为了改进这一不足，本文提出工作。

主要方法

论文笔记-Detail Preserving Depth Estimation from a Single Image Using Attention Guided Networks
网络架构如论文图所示，主要包含DFE（致密特征提取）、深度图生成（DMG）两个模块。

1. DFE

现有的深度图估计网络中常常使用的特征提取都是图像分类任务的网络，输出常常是低分辨率的或者输出过于平滑，为了恢复高分辨率则常常需要扩张卷积等操作，时间复杂度相对提高。

工作提出使用空洞卷积来提取高层次的上下文信息，同时也保留了许多特征图上的空间细节信息。主要实现通过将空洞卷积结合Res-Net101得到相应的DEF模块。

2. DMG

利用不同级别的DFE提取的信息，提出DMG，DMG由注意力模块 AFB(Attention Fuse Block)和通道衰减模块CRB（Channel Reduce Block）组成。

2.1 AFB

根据全局上下文信息确定每个通道的权值，之前的网络通常都是简单将每个通道求和或者拼接，失去对上下文信息的利用。
$y=W*x=\sum_{s=1}^C{w_s*x_s}$
其中的 $*$ 表示卷积操作， $y$ 是卷积的输出， $X=[x_1,x_2,...,x_c]$ 表示输出的 $c$ 个通道的特征图，而 $w_s\in W$ 则是一个二维的空间核，表示作用到每个 $X$ 对应通道的核，训练结束后 $W$ 被固定。
ResBlock的结果和AFB的结果在当前的AFB中混合，首先将两个输入拼接，然后用一个全局平均池化层和两个 $1*1$ 卷积操作，得到一个 $1*1*C$ 的张量，表示对应特征图通道的权重。然后当前的ResBlock和这个权重相乘得到AFB结果较差。

2.2 CRB

将通道减少到相同级别的通道，使用相同的空洞系数的卷积。