论文阅读：GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing

论文阅读：GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing
论文及代码详见：https://proteus1991.github.io/GridDehazeNet/

1. 摘要

文章提出了一种端到端可训练的CNN，即GridDehazeNet。GridDehazeNet包含三个模块：预处理模块，主干模块和后处理模块。可训练的预处理模块相比手工选择的预处理方法，可以产生具有更好的多样性和更有针对性的输入。主干模块在实现了一种新的基于注意力的多尺度估计，有效缓解了传统多尺度方法中经常遇到的瓶颈问题。后处理模块有助于减少最终输出中的瑕疵。

2. GridDehazeNet

2.1 网络结构

论文阅读：GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing

2.2. 通道注意力的特征融合

注意到整体框架中，许多地方将水平块的输出和竖直块的输出进行融合，即图中红色圆圈圈住A的地方。此处即为通道注意力的特征融合。融合机制可以定义如下：
$\hat{F}^i=a^i_rF^i_r+a^i_cF^i_c$
其中， $\hat{F^i}$ 代表 $i$ 通道融合后的结果， $F^i_r$ 表示当前融合水平输入的第 $i$ 个通道， $a^i_r$ 表示当前融合水平输入的第 $i$ 个通道的融合权重， $F^i_c$ 代表当前融合竖直输入的第 $i$ 个通道， $a^i_c$ 表示当前融合竖直输入的第 $i$ 个通道的融合权重。

2.3 损失函数

损失函数包括两部分：平滑 $L_1$ 损失和感知损失。

2.3.1 Smooth $L_1$ Loss

平滑 $L_1$ 损失定义为：
$L_S=\frac{1}{N} \sum^N_{x=1} \sum^3_{i=1} F_S(\hat{J}_i(x)-J_i(x))$
其中：
$F_S(e) = \begin{cases} 0.5e^2, & if |e|<1, \\ |e|-0.5, & otherwise. \end{cases}$
平滑 $L_1$ 损失函数的原理可以看别的博客。

2.3.2 Perceptual Loss

感知损失利用预训练模型，提去多尺度特征来量化结果和GT的视觉差异。本文用的是在ImageNet上预训练的VGG-16模型，从前三个阶段（即Conv1-2, Conv2-2，Conv3-3）的最后一层提取特征。
感知损失定义为：
$L_P = \sum^3_{j=1} \frac{1}{C_jH_jW_j}||\phi_j{(\hat{J})}-\phi_j{(J)}||^2_2$
其中， $\phi_i(\hat{J})$ ( $\phi_i (J)$ )， $j=1,2,3$ ，为去雾结果 $\hat{J}$ (the ground truth $J$ )相关联的三个VGG-16的特征图。 $C_j$ ， $H_j$ ， $W_j$ 为 $\phi_i(\hat{J})$ ( $\phi_i (J)$ )的尺寸。

2.3.3 Total Loss

总的损失函数为：
$L = L_S + \lambda L_P$
其中 $\lambda$ 为调整两个损失相对权重的参数。本文设为 $\lambda = 0.04$ 。

3. 实验结果

详见论文。

4. 总结

本文提出了一个端到端可训练的CNN，名为GridDehazeNet，并展示了它在单幅图像去雾方面的竞争性能。由于其网络结构的通用性，GridDehazeNet有望适用于广泛的图像复原问题。

目录