Frame-Recurrent Video Super-Resolution-FRVSR阅读笔记

论文提出在以往的视频超分辨率中采用的滑动窗口的方式，有效地将问题视为大量独立的多帧超分辨率任务，但是该方法有主要缺点：1）每个输入帧被多次处理，增加了计算成本；2）每个输出帧独立地根据输入帧进行估计，限制了系统产生时间上一致结果的能力。
该论文提出了一个端到端的可训练的帧递归视频超分辨率网络，该方法将先前估计的HR帧作为后续迭代的输入。这种方法首先保证了每个输入帧只需处理一次，这大大降低了计算成本；同时这种方法可以将先前HR估计帧传播到后面的帧，这一方面有助于模型重新创建精细细节，另一方面可以保证生成时间上一致的视频。

网络结构

Frame-Recurrent Video Super-Resolution-FRVSR阅读笔记
FRVSR框架主要由以下5个部分组成：

光流估计网络FNet：该网络根据 $I_{t-1}^{LR}$ 和 $I_t^{LR}$ 产生标准化低分辨率光流图： $F^{LR}=FNet(I_{t-1}^{LR},I_t^{LR})\in[-1,1]^{H\times W \times 2}$ FNet的具体网络结构如下图所示：

光流网络FNet的设计遵循简单的编码器编码器式架构，以增加卷积的感受野。
上采样光流：使用双线性插值放大光流图，得到一个HR光流图（对光流上采样）: $F^{HR}=UP(F^{LR})\in[-1,1]^{sH\times sW \times 2}$
将上采样的光流与前一帧估计得到的HR进行warp: $\tilde{I}_{t-1}^{est}=WP(I^{est}_{t-1},F^{HR})$
将上一步warp得到结果映射到LR空间中: $S_s:[0,1]^{sH\times sW \times C}\rightarrow[0,1]^{H \times W \times s^2C}$
该方法类似于ESPCN中亚像素卷积的反操作，具体如下图所示：
将上一步得到的LR映射与 $I^{LR}_t$ 连接起来，输入至SRNet中进行超分辨率得到t时刻的超分辨率结果 $I^{est}_t$ ，即： $I^{est}_t=SRNet(I_t^{LR}\oplus S_s(WP(I^{est}_{t-1},UP(FNet(I^{LR}_{t-1},I^{LR}_t)))))$ SRNet的具体网络结构如下图所示：

对于SRNet，遵循残差网络结构设计，但用转置的卷积替换上采样层。

损失函数

损失函数如下图两部分所示：
Frame-Recurrent Video Super-Resolution-FRVSR阅读笔记
损失 $\mathcal{L}_{sr}$ 应用于SRNet的输出，并通过SRNet和FNet反向传播: $\mathcal{L}_{sr}=||I^{est}_t-I^{HR}||_2^2$ 由训练的视频数据集没有光流的ground truth，我们通过计算上一帧与光流warp的结果与当前帧的均方误差来训练FNet。 $\mathcal{L}_{flow}=||WP(I_{t-1}^{LR},F^{LR})-I^{LR}_t||_2^2$ 用于训练的总损失是 $\mathcal{L}=\mathcal{L}_{sr}+\mathcal{L}_{flow}$ 。

训练中的一些trick

使用FFmpeg从视频帧中提取10个连续帧的剪辑，通过剪辑时不包括关键帧避免连续中的场景重大变化；
使用BPTT反向传播；
初始化 $I_0^{est}$ 为黑图，即 $I_0^{est}=0$ ， $I_1^{LR}$ 做SISR；
当光流网络在 $I_{t-1}^{LR}$ 和 $I_t^{LR}$ 之间找不到良好的对应关系时，超分辨率网络会自动忽略先前的图像 $\tilde{I}_{t-1}^{est}$ 。

Future Network

由于框架依赖于HR估计 $I_{est}$ 来传播信息，因此它可以重建细节并在大量帧上传播它们。同时，任何细节只能在 $I_{est}$ 中包含在系统中，因为它是SRNet将信息传递给未来迭代的唯一方法。由于 $I_{est}$ 上的空间损失，SRNet无法传递可能对视频中的未来帧有用的辅助信息，例如，对于被遮挡的区域。因此，遮挡不可逆地破坏受影响区域中所有先前聚合的细节，并且我们的模型对于先前遮挡的区域可以做的最好是匹配单个图像超分辨率模型的性能。相比之下，使用固定数量的输入帧的模型仍然可以组合来自没有遮挡的帧的信息，以在这些区域中产生更好的结果。为了解决这个限制，使用额外的内存通道扩展框架是很自然的。
由于该模型在概念上是灵活的，因此可以轻松扩展到其他应用程序。例如，可以插入原始HR帧 $I_{t-1}^{HR}$ 来代替每个第K帧的估计帧 $I^{est}_{t-1}$ 。这可以实现有效的视频压缩方法，其中仅需要存储K个HR帧中的一个，而其余帧将由模型重建。
我们框架的进一步扩展更先进的损失函数以产生视觉上更加令人愉悦的结果。