Recurrent Back-Projection Network for Video Super-Resolution - CVPR2019
1. Related Work

- 与DBPN论文一样,都是先总结并分类当前主流的SR做法。
- 主流的Deep VSR(video super-resolution)分为以下四种:
- Temporal Concatenation:送入网络前将frames直接concat起来
- Temporal Aggregation:将不同数量的帧(有些分路包含更多的邻居frame)丢进网络分路,最后输出前concat起来
- RNNs:frames迭代式地进入RNN,最后输出当前这一帧的输出
- 本文提出的RBPN
2. Method
- 首先RBPN是根据当前帧以及多个邻居帧生成当前帧的SR图像(multi frame->single frame),并不是multi frame -> multi frame
- RBPN与本文的兄弟paper图像超分辨率网络DBPN思想比较相似,核心都是残差学习。DBPN是根据浅层的特征来学习残差,RBPN是根据邻居帧以及两者的optical flow来学习残差
2.1 Network Architecture

- 与DBPN类似,RBPN同样划分为三个stages:
-
Initial Feature Extraction:对当前帧采用卷积层It进行特征提取,得到LR特征Lt。并concat当前帧It、邻居帧It−i、两者之间的optical flow图Ft−i,然后对concat起来的输入使用卷积层进行特征提取,得到Multi-frame特征Mt−i。其中i=1,2,...,n。n是一个超参数。上图中最后一个Projection Module的输入Lt−n−1应该写错了,应该是Lt−n+1,是t-n帧的后一帧t-n+1帧对应的Projection Module的输出Lt−n+1。
-
Multiple Projections

Multiple Projections 是一个Encoder-Decoder结构的Module。Encoder负责上采样,Decoder负责下采样。
-
Encoder:输入是Lt−n+1(图应该画错了)。Lt−n+1是上一个Projection Module的输出,结合了t-n+1 ~ t-1 帧以及他们与当前帧的optical flow,产生的LR特征图。通过对Lt−n+1使用SISR网络(single image super-resolution)产生HR特征原型 Ht−n+1t,然后使用Multi-Frame特征Mt−n产生multi-frame的HR特征Ht−nm,两者相减得到残差,残差经过Residual Block得到学习后的残差et−n,与LR特征原型Lt−n+1相加,得出Encoder的输出HR特征Ht−n
- 为了利用更前一帧t-n-1与当前帧的Multi-Frame特征(LR的特征),需要将Encoder的输出HR特征Ht−n下采样得到LR特征Lt−n。这里使用了一个Residual Block以及下采样模块(我看得源码采用了max-pooling进行下采样)
- Resconstruction:把Projection Module中Encoder每次迭代中输出的HR特征全部concat起来,经过卷积层得出最终的SR图像
- 网络图中的Projection Module实际上只有一个,循环利用。每次向同一个Projection Module输入LR特征以及Multi-Frame的特征
3. Experiment
- 采用L1 Loss
- 分析采用多少帧过去的帧进行SR重建

可以看出,显然用更多帧进行预测时效果更好。
然而,我在跑这个模型的时候发现,这个模型非常的慢…6frame跑不起跑不起…3frame都难
相关文章:
-
2021-12-03
-
2021-07-24
-
2021-07-27
-
2021-10-27
-
2021-09-06
-
2021-04-18
-
2021-11-16
-
2021-12-17
猜你喜欢
-
2021-12-05
-
2022-01-08
-
2022-01-07
-
2021-04-24
-
2021-05-24
-
2021-06-24
-
2021-09-10
相关资源
-
下载
2021-07-01
-
下载
2021-06-23
-
下载
2022-12-07
-
下载
2022-12-25