Meta-SR: A Magnification-Arbitrary Network for Super-Resolution
原文链接:https://arxiv.org/abs/1903.00875
摘要
任意尺度的超分已经被忽视好久了。大多数研究者把不同尺度超分当成一个独立的任务。而且这些尺度都是整数阶的。因此,本文提出Meta-SR来解决上述问题。提出Meta-Upscale Module来代替传统的Upscale module。Meta-Upscale Module 能动态的预测upscale filters 的权重,通过将scale factor作为输入和用这些权重去生成任意尺度的HR图像。对于任何低分辨率图像,能够通过一个模型产生连续不断的放大的图像。
1介绍
很少有人讨论任意缩放的超分。ESPCNN,EDSR,RDN和RCAN这些方法都用到亚像素卷积来放大图像。(亚像素卷积详见:https://blog.csdn.net/leviopku/article/details/84975282)
亚像素卷积的存在两个缺点:1、对于不同缩放因子需要设计特定的upscale module
2、每一个upscale module只能在整数阶的放大
这些缺点限制了超分在真实场景上的使用。
要做到任意尺寸的超分,需要一组upscale filter的权重来对应每一个缩放因子。受到了meta-learning的启发,提出了动态预测对于每个缩放因子的filter的权重的网络。
Meta-SR有两个模块,一个是Feature Learning Module,另一个是Meta-Upscale Module。
Meta-Upscale Module:对于每一个生成HR图像像素(i,j),我们基于缩放因子r将该像素投影到LR图像上。在LR图像的投影坐标为(⌊i/r⌋,⌊j/r⌋)。把这些坐标相关和缩放相关的矢量作为输入和 预测filters的权值。一个卷积将在该LR图像相应的特征和filters的权重中进行,结果是生成SR图像的(i,j)。
本文有三个特点:1.对于单整数阶,和其他重训练的基准有可比较的结果。2.对于任意阶,better than
其他方法。3.快速,meta-upscale是 Feature Learning Module(FLM)耗时的1%。
2相关的工作
2.1 SISR
以前的方法由于受限于数据库或字典的容量和耗时,达不到很好的表现。深度学习的提出,涌现了很多中方法。SRCNN是第一个超分网络。DRCN网络首次提出递归学习的概念,Tai等人提出DRRN和Memnet网络。上述所以网络由于输入和输出图像大小一样,所以很耗时。
又提出了ESPCNN的子像素放大,EDSR的去掉BN,加入更多残差缩放去加速训练。MDSR用不同的图像处理块和upscale模块来处理不同的尺寸因子。RDN结合残差块和密集连接块。DBPN提出迭代上下采样层来为每个阶段提供误差反馈机制。Jo等人提出动态上采样filters来应用于视频超分。该动态上采样filters的产生基于时空领域的。而本文提到的Meta-Upscale Module是基于变化的缩放因子的,来解决任意尺度超分的。
2.2Meta-Learning
简答的说,就是学习如何学习。该方法主要用在少样本/零样本学习上,或迁移学习上。这里主要关注meta-learning策略中的权重预测。一般的权重更新是通过训练数据集的学习到的,而这里是通过另一个神经网络进行预测。
最相关的工作是 Parameterized Image Operators这篇文章,它利用权值预测动态的对深度网络的权重进行调整。Meta-SR和上述方法不同的是,Meta-SR重心在于Upscale Module的反复生成,通过将坐标和缩放因子作为输入。
3我们的方法
3.1Meta-Upscale Formulation
将RDN作为 Feature Learning Module。(后面有说EDSR或其他模型也可以)
Flr是经过Feature Learning Module后的特征,r为缩放因子。SR图像上的(i,j)像素,由LR图像上的(i’,j’)和相对于的filter的权重决定。我们可以将Upscale Module看成FLR和ISR的映射函数。首先,upscale module 应该(i,j)映射(i’,j’),然后(i’,j’)经过特定的filter生成(i,j)。公式为(1)
其中,FLR(i’,j’)是一个特征。(.)是特征映射函数(下面有说是矩阵乘积函数)。
对于Meta-Upscale Module有三个重要函数。
1.Location Projection:将SR像素投影到LR上。
2.Weight Prediction: 为每一个SR图像的像素,预测filter的权值。
3. Feature Mapping:将LR图像上的特征与预测的权重映射回SR图像以计算像素的值。
Location Projection:
(2)
T是转换函数。Location Projection可以理解为一种变化分数步长机制,该机制能够任意尺寸放大特征映射。
如图2,缩放因子为2,则每一个(i’,j’)对应两个点。如果缩放因子为1.5的话,有的像素对应两个值,有的对应一个值。
Weight Prediction:
(3)
其中W(i,j)是filter的权值,Vij是与i,j相关的矢量,文章中说最适合Vij是(i,j)相对偏移(i’,j’)的值。是权值预测网络,并把Vij作为输入,是权值预测网络的参数。
(4)
为了区分不同缩放因子的权值,在上式加入缩放因子。就是说对于不同缩放因子,训练的filters的权重都是不同的,这样避免了一个图像是另一个图像的子图像,而产生相同权重的问题。公式如下:(5)
Feature Mapping:
选择矩阵乘积作为Feature Mapping function。(6)
这里有一个Meta Upscale Module的算法,详见原文。
3.2Meta-SR的结构细节
很多模型可以作为Feature Learning Module,本文用到RDN,有3层卷积层和16个残差密集块(RDBs)。每个RDBs有8个卷积层。密集块的增长率为64。提取特征映射有64通道,更多细节详见RDN。
Meta-Upscale Module包含几个全连接层和几个**函数层。每个输入将输出一组(inC,outC,k,k)形状的权值。这里的inC是提取特征映射的通道数,本文定为64。outC是预测的HR图像的通道数。一般对于彩色图outC=3,对于灰度图outC=1。k为卷积核大小。因为相比于输入大小(3)而言,输出大小(k2 X inC X outC)是很大的,所以设隐含层神经元个数为256。实践证明,全连接层为2能够在速度和表现达到平衡,卷积核大小为3X3最合适,因为5X5太耗时了。
4实验
4.1数据集和指标
用DIV2K作为训练集。测试集用Set14,B100,Manga109和DIV2K(验证集)。
指标用PSNR和SSIM。仅仅考虑Y通道上的psnr和ssim。
用双三次插值来生成退化图像。
4.2训练细节
用L1损失函数,随机挑16张50X50的RGB LR图像作为一个batch input。用水平垂直翻转和旋转90度来增强图像。优化函数为Adam。学习率初始为10e-4,每200epoch降一半。所有实验在4个GPU上并行。训练的缩放因子以步长0.1从1到4变化。一个batch每张图像有同一个缩放因子。
4.3对于任意缩放因子的单个模型(就是一些作比较的方法)
首先,将双三次插值生成的HR图像作为基准。
第二,放大r倍,经过CNN生成HR图像的EDSR(x1)和RDN(x1)。以上两种方法太耗时,不能用于实际使用。
第三种方法是:先放大一个倍数后,再缩放,缩放倍数为r/k。如k=2,则称RDN(x2)和EDSR(x2)。假如r=1.3,则放大k=2倍SR图像先缩小2倍再放大1.3倍。如果r>k,那么我们先把k定高一点。K=4时,我们称RDN(x4)和EDSR(x4)。
为了验证Weight Prediction 和Location Projection优越性,用BiConv 来提取特征,在最后的特征图通过改进的插值方法放大图像。
Meta-Bi也是只用BiConv,没有RDN,有Weight Prediction 和Location Projection。
图表1中,双三次插值没有引入任何纹理细节信息,表现最差。RDN(x1)和EDSR(x1)在大缩放因子表现很差。而且放大过程很耗时。对于RDN(x4)和EDSR(x4)的情况中,Meta-RDN 和RDN(x4)缩放因子越接近1,差异越大。
Meta-Bi和Meta-SR对于每一个缩放因子都能学到一个好的权重,而BiConv则权重都一样。体现了Weight Prediction Module的优越性。
实验表明,Meta-RDN > Meta-Bi > BiConv。
对于在特征图上插值,插值放大的放大受缩放因子影响,缩放因子越大,有效可视区域越小。然而,Meta-SR不会出现这样的情况。
4.4推断时间
如表2,FL表示特征提取模块,WP表示权重预测模型,Upscale表示放大模块
Meta-SR也没有好多少,特别在放大模型还比其他模型差。但是作者说在更大缩放因子会表现更好。
4.5与当前的方法比较
与RDN相比,Meta-RDN达到可比程度甚至更好。
4.6可视化结果
5总结
1.提出Meta-Upscale 去解决用一个模型任意缩放比例的超分。
2.提出Meta-Upscale Module 动态预测filters的权重,对于不同缩放因子,生成不同的一组权重。通过在特征映射和filter做卷积操作来生成HR图像。
如有问题,请指正,谢谢。