MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记

论文链接：https://arxiv.org/abs/2007.11803
代码：未公开
ECCV2020

前言

当前VSR算法所存在的问题：1）通常采用光流来建立时间相关性，但是光流估计易有误，从而影响重建结果；2）VSR算法极少采用自然图像中本就存在的相似模式。
之前的VSR算法对对齐和回归两个阶段单独建模，本文将VSR看作帧内和帧间集成任务。本文所依据的现象：连续帧具有相似内容；同一帧内不同位置具有相似内容。
帧间相关性：为了验证作者的想法，实验设置：在MPI-Sintel Flow数据集上，用一种简单的patch匹配策略来估计光流。在得到top-K个最相似patch作为对应候选后，计算表现最好的一个与ground truth flow之间的欧式距离，如Figure 1（b）所示，当考虑更多的帧间相关性时，获取光流的误差更小。
帧内相关性：如Figure1（c）所示，在同一图像帧内，相似的内容所处的位置不一定是相邻的，非局部位置和不同尺度的相似图像块对于图像重建是具有意义的。

MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
本文贡献如下：

本文设计了一个多相关性集成网络（multi-correspondence aggregation network，MuCAN）端到端地进行视频超分辨率，在多个benchmark数据集上取得SOTA效果；
设计了两个有效的模块充分利用时间和空间信息。时间多相关性集成模块（temporal multi-correspondence aggregation module ，TM-CAM）以稳健的方式构建运动补偿，交叉尺度非局部相关性集成模块（crossscale nonlocal-correspondence aggregation module ,CN-CAM）探索多个空间尺度的相似特征。
引入edge-aware损失函数使得网络能够更好地重建边缘。

本文算法

本文整体结构如下图所示：
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记

TM-CAN

在做运动补偿时，一方面要消除大的运动以构建相似内容间的相关性，另一方面亚像素级的运动对于提取细节也非常重要，TM-CAN模块是一个分层相关性集成策略能够同时处理大运动和小(亚像素级)运动。
TM-CAN如Figure3和Figure4所示：
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
以 $F_{t-1}^l$ 对齐到 $F_t^l$ 为例，给定 $F_t^l$ 中的一个图像patch $f_t^l$ (表示为特征向量)，首先在 $F_{t-1}^l$ 上找到其邻域，为方便计算，定义局部搜索域满足 $|p_t-p_{t-1}| \leqslant d$ ，其中 $p_t$ 为 $f_t^l$ 的位置向量，对于 $f_{t-1}^l$ 与 $f_t^l$ ，他们间的相关性定义如下：
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
在计算相关性后，从 $F_{t-1}^l$ 上以降序形式选择top-K（论文实验中K取4）个最相关的patches（即 $\overline f_{t-1,1}^l$ , $\overline f_{t-1,2}^l$ ,…, $\overline f_{t-1,K}^l$ ），然后concat再集成如下：
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
Aggr以卷积层的形式实现。不为 $\overline f_{t}^l$ 中的每个元素值赋予相同的权重，采用 $F_{t-1}^l$ 和 $F_{t}^l$ 的concat形式经过卷积层，生成pixel-adaptive权重。
如Figure2所示，当获取{ $\overline F_{t-N}^0,...,\overline F_{t-1}^0, \overline F_{t}^0,\overline F_{t+1}^0，\overline F_{t +N}^0$ }后，所有这些特征通过卷积层和PixelShuffle层构建成两倍空间尺寸的特征图。

CN-CAM

CN-CAM模块结构如下所示：
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
多尺度特征是通过平均池化层获取的：

设 $M_t^0$ 中心位置于 $p_t$ 处的patch为 $m_t^0$ ，在其他三个尺度进行非局部搜索：

其中 $\widetilde m_t^s$ 表示 $m_t^0$ 在 $M_t^s$ 处最相关的patch，在集成之前，对每个紧邻patch进行自注意力以决定其信息是否有用，整个过程如下表示：
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
其中Aggr通过卷积层完成。

Edge-Aware Loss

VSR算法生成的HR图像边缘不规则，为解决这一问题，论文引入edge-aware loss。采用拉普拉斯滤波器进行边缘检测，ground-truth设为 $I_t^H$ ，通过检测器获取的边缘图为 $I_t^E$ ， $p_t$ 位置的二值掩码表示为：
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
实验中阈值 $\delta$ 为1，设重建的HR图像为 $\hat I_t^H$ ，则训练loss为：

其中 $L$ 为Charbonnier损失：

实验

数据及评估准则

训练测试数据：REDS和Vimeo-90K
评估准则：PSNR和SSIM
数据增强：随机切割、镜像和旋转（旋转角度为90度或-90度）

消融实验

不同模块的作用

EAL: Edge-Aware loss
TM-CAM中不同K值的影响：
comparision with SOTA Methods