super resolution 论文阅读简略笔记（个人，持续ing）

从deep learning开始后开始看的。具体实验细节没看。写的比较简略，只是为了过段时间忘记论文内容的时候还可以翻下。。。

1. Image Super-Resolution Using Deep Convolutional Networks

以往都是采用传统方法进行super resolution。这篇论文提出SRCNN，第一次用deep learning解决single image super resolution（SISR）的问题。作者认为传统的super resolution的方法可用卷积操作和**函数来替换。

开山之作结构也很简单，如下图。共三层conv layers，图中三部分每一部分对应一层。第一部分提取输入LR图（已经被放大到HR要求的尺寸）的feature，为conv+relu；第二部分将提取的LR的feature 映射至HR的feature，为conv+relu；第三部分重建HR，为conv。

super resolution 论文阅读简略笔记（个人，持续ing）

loss function也很简单，是MSE（mean squared error） loss。 super resolution 论文阅读简略笔记（个人，持续ing）其中F项为output之后的HR图像，X为已经经过插值得到的和HR同尺寸的输入图像，theta为模型参数。

super resolution 论文阅读简略笔记（个人，持续ing）

2. Accurate Image Super-Resolution Using Very Deep Convolutional Networks

SRCNN 对于细节恢复不好，收敛慢，并且需要固定scale factor。基于这些问题，该论文提出了用更深的残差网络快速进行single image super resolution的VDSR网络，在快速的同时，也比以往的工作much more accurate。

super resolution 论文阅读简略笔记（个人，持续ing）

contributions：

propose a highly accurate SR method based on a very deep convolutional network.
resolve the convergency issue with residual-learning and gradient clipping.
extend our work to cope with multiscale SR problem in a single network.

我认为最主要的贡献就是提出用residual 解决super resolution这一问题。

网络结构如下图。ILR是已经经过插值得到的和HR同尺寸的输入。整个结构是由conv+relu堆叠的（最后共20层），学得的residual与输入相加得到输出的HR。上面的四个图为可视化某些中间层，该网络每层均为64个filters，这四幅图的每个小格子是64个filter 后得到的不同feature map，可以看到经过relu后，大部分都会学成0或很小的值，所以training会容易。

super resolution 论文阅读简略笔记（个人，持续ing）

loss function 为 super resolution 论文阅读简略笔记（个人，持续ing）其中 ,y 为gt，x为LR，f(x)为HR。

作者还提到，可以多增加一个输入，scale数值，可以应对multi scale的问题，并且这样做，效果要比单一尺寸super resolution好。

（另外插一句很小很小的细节。SRCNN中说越deep，效果越好这句话对于super resolution 来说并不适用，最终就用了3层。。。。但该文作者打脸说，SRCNN应该是learning rate太小了，还没等训练收敛，就停了，所以得出了这样错误的结论。。。作者说，在super resolution领域，依旧是The Deeper,the Better！）

（所以说，调参是很玄学也很重要滴）

3. Real-Time Single Image and Video Super-Resolution Using an Efﬁcient Sub-Pixel Convolutional Neural Network

以往的工作都是在网络一开始，就进行上采样将LR 变为 HR的尺寸，但这样会造成计算复杂度很高，因为都是在高 res 上进行的操作。该文对于这个问题提出了一种real time 的single image super resolution的方法ESPCN，在网络最后进行upsampling 。

作者选择在网络最后进行upsampling而不是一开始进行，网络的操作都是在低res上做的，复杂度会低很多。并且用可学习的upsampling filter 代替以往方法中的handcrafted bicubic filter，可以学得一个更有效的upscaling的mapping，SP效果会更好。

速度和之前工作比真的很快，贴上论文结果。

super resolution 论文阅读简略笔记（个人，持续ing）

网络结构如下图。前 l-1 层均为正常的conv+activation func（作者在relu 之外，还试了 tanh，发现在SISR 时，tanh效果要比relu 好），最后一层为作者提出的sub-pixel convolutional layer，但是并没有进行卷积的操作，只是将像素按照 channel 重新排列，将 super resolution 论文阅读简略笔记（个人，持续ing）的feature maps 重新排列为作为输出。

super resolution 论文阅读简略笔记（个人，持续ing）

loss function为 super resolution 论文阅读简略笔记（个人，持续ing），这些论文在 loss 的设计上基本都没有什么变化。

4. Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation

以往能做到real time，可以用于video的single image super resolution的方法并不能有效利用 temporal 信息。在这篇论文中，作者提出了针对video 的super resolution方法VESPCN，可以有效结合 temporal 的信息，提高重建准确率，并且速度也很快，并且是the first end-to-end video SR framework。

总体网络结构如下图。

super resolution 论文阅读简略笔记（个人，持续ing）

该方法是基于上一篇论文的，网络的最后都是一样的ESPCN与Sub-pixel convolution，不再赘述。重点是作者提出的前面的 Spatial transformer motion compensation 部分，用optical flow的 motion的信息来补偿 spatial的信息。

optical flow 加进网络肯定是有效果的，但是重点是这个时域信息应该怎么用，才能最有效，即怎样用光流代表的时域信息来更好的补偿新的一帧 super resolution 论文阅读简略笔记（个人，持续ing）。optical flow是pixel-wise的，其实是通过optical flow ，将每一个pixel 重新放置在运动之后的新的位置，而这个重新放置的偏移量，就是

super resolution 论文阅读简略笔记（个人，持续ing），其中theta 是optical flow的参数。

而这样直接加了偏移量以后并不是一个整数，所以再通过双线性插值得到最终的t+1时刻的经过时域信息补偿的帧。 super resolution 论文阅读简略笔记（个人，持续ing）

更准确的是 super resolution 论文阅读简略笔记（个人，持续ing）。

然后根据这个观点，作者提出了一个multi-scale的设计，如下图。其中的coarse flow estimation单元和fine flow estimation单元详细结构如表所示。输入两帧先经过粗糙的flow估计单元，得到了上文所说的偏移量 super resolution 论文阅读简略笔记（个人，持续ing），用这个偏移量得到一个经过补偿的帧；同样的这两帧再经过一个精细的flow估计，得到精细的偏移量，同样得到一个补偿过的帧；最后这两帧加起来经过一个双线性插值，得到最终的经过运动补偿的帧 super resolution 论文阅读简略笔记（个人，持续ing）

super resolution 论文阅读简略笔记（个人，持续ing）

kernel size (k), number of features (n) and stride (s).

训练时这个motion compensation 部分的loss是MSE loss加上Huber loss。加入Huber Loss是为了让 optical flow在空间光滑（Huber Loss Wikipedia） super resolution 论文阅读简略笔记（个人，持续ing）

其中后面一项近似为，

super resolution 论文阅读简略笔记（个人，持续ing）

最后，加上后面的结构，做end-to-end训练时，整个loss为 super resolution 论文阅读简略笔记（个人，持续ing）

其中 super resolution 论文阅读简略笔记（个人，持续ing）为motion compensation部分的参数，为后半部分的参数。

5. Detail-revealing Deep Video Super-resolution

对于video super resolution要解决的问题，作者总结为两个， (1) 怎样有效利用连续帧之间的信息，即motion 的信息； (2) 怎样有效的融合有用的细节。作者针对这两个问题提出了一个新的end-to-end网络。

该网络可以接受任意数目的输入且可以放大任意尺寸，灵活性高；网络结构如下图，包括三部分，ME（motion estimation），SPMC（Sub-pixel Motion Compensation），Detail Fusion Net。

super resolution 论文阅读简略笔记（个人，持续ing）

首先，第一部分ME，作者尝试了FlowNet 以及VESPCN 中的 motion compensation transformer（MCT）两种方法，最后选择了MCT，因为速度很快（500+ single-channel image pairs (100×100 in pixels) per second），并且用在这个网络里效果也可以接受。由于是上篇论文的方法，这里就不再详细展开了。

之后介绍的是Sub-pixel Motion Compensation(SPMC)，这个部分并没有单独的参数，不需要训练。如下图是一个scale为*4的例图，用公式表达就是 super resolution 论文阅读简略笔记（个人，持续ing）其中W是warp的矩阵，α是scale，u、v是motion（F）的偏移量，M是插值（什么插值都行）。脚标太多我不想说了。。。。。。。。。就当我说完了吧。

super resolution 论文阅读简略笔记（个人，持续ing）

最后第三部分的网络结构在图中很清晰。

训练的时候，要分阶段，因为end-to-end 直接random initialization训练的话，最终ME 的flow 会变成0，最终的效果和single-image SR没啥区别。分三阶段。

Phase 1：只单独考虑ME网络，进行无监督训练（没有gt flow），loss为 super resolution 论文阅读简略笔记（个人，持续ing）其中是根据flow 从第零帧得到的warped的i帧图像，后一项我认为是用来约束F平滑一些。

Phase 2：固定ME中的参数，只更新Detail Fusion Net，loss为 super resolution 论文阅读简略笔记（个人，持续ing）。其中最后一项是网络的输出，倒数第二项是gt,第一项是一个超参数，提前设定好的。

Phase 3：就可以jointly tune，total loss 是 super resolution 论文阅读简略笔记（个人，持续ing）。

6. Video Super-Resolution With Convolutional Neural Networks

References：

Image Super-Resolution Using Deep Convolutional Networks pdf (TPAMI 15)

Accurate Image Super-Resolution Using Very Deep Convolutional Networks pdf (cvpr16)

Real-Time Single Image and Video Super-Resolution Using an Efﬁcient Sub-Pixel Convolutional Neural Network pdf (cvpr16)

Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation pdf (cvpr17)

Detail-revealing Deep Video Super-resolution pdf (iccv17)

Video Super-Resolution With Convolutional Neural Networks pdf