论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution

I.介绍

一个好的立体缩略图应该具有两个特性：

保持整个对象
背景信息表达

II.相关工作

略
论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution

III.提出的方法

论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution

A.深度可控的多尺度缩略图生成

1）针对低分辨率图像的视觉模型

由于在低分辨率图像中，高频信息往往容易被忽略，因此提出对比度敏感函数CSF
特别地，在低分辨率图像的情况下，在生成缩略图是保持原有的深度是不适合的，因此使用JNDD（恰可察深度差异）模型，增强低分辨率3D图像的深度感，保证物体和背景的深度差能被人类感知。
在观察低分辨率图像时，人们倾向于去看图像的中心领域，因此使用一个高斯函数作为滤波器

2）多尺度缩略图生成

为了扭曲操作以完成目标，作者针对图像质量、主体性和深度控制设计了能量项。

图像质量：
- ①similarity transformation
- ②line bending
主体性：由文章[17]提出的显著性检测方法生成显著性图 $I_s$ ,然后用OSTU算法（最大类间方差法）将显著性图二值化，从而获得主体掩模。
- ①objectness energy term
深度控制：在低分辨率法人情况下保持深度是不可能的。
- ①提出用JNDD模型，在低分辨率下仍有好的深度感。
- ②提取稀疏特征以控制选中主体的深度

B.裁剪网络

根据最前沿的裁剪算法：[8],[24],[28]-[31],裁剪窗口可以由裁剪网络选择。

[8]:H. Chen, B. Wang, T. Pan, L. Zhou, and H. Zeng, “CropNet: Real-time thumbnailing,” inProc. ACM Int. Conf. Multimedia, New Y ork, NY , USA, 2018, pp. 1–89.
[24]:S. A. Esmaeili, B. Singh, and L. S. Davis, “Fast-At: Fast automatic thumbnail generation using deep neural networks,” inProc. IEEE Conf. Comput.Vision Pattern Recognit., Honolulu, HI, USA, 2017, pp. 4178–4186.
[28]:Y . Deng, C. C. Loy, and X. Tang, “Image aesthetic assessment: An experimental survey,” IEEE Signal Process. Mag., vol. 34, no. 4, pp. 80–106,Jul. 2017.
[29]: D. Li, H. Wu, J. Zhang, and K. Huang, “A2-RL: Aesthetics aware reinforcement learning for image copping,” in Proc. IEEE Conf. Comput.Vision Pattern Recognit., Salt Lake City, UT, USA, 2018, pp. 8193–8201.
[30]: G. Guo, H. Wang, C. Shen, Y . Y an, and H. M. Liao, “Automatic image cropping for visual aesthetic enhancement using deep neural networks and cascaded regression,” IEEE Trans. Multimedia, vol. 20, no. 8, pp. 2073–2085, Aug. 2018.
[31]:W. Wang, J. Shen, and H. Ling, “A deep network solution for attention and aesthetics aware photo cropping,” IEEE Trans. Pattern Anal. Mach.Intell., vol. 41, no. 7, pp. 1531–1544, Jul. 2019.

在这里，我们使用基于美学评价的裁剪网络[28]来实现裁剪，这是一个来自预先训练的VGG-16[38]的微调网络。
论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution
首先，如图6（a）所示，由于图像美学和分类之间的高度相关性，VGG-16使用AVA数据集[39]进行了微调，用于美学分类，其中所有网络层的权重都以1e−4的学习速率学习。经验交叉熵损失定义为：
$L_{AVA}(W) = -\frac{1}{N_A}\sum_{k=1}^{N_A}\sum_{i=1}^2p_i^{(k)}\cdot log \bar p_i^{(k)}(X^{(k)};W)..................(13)$
由于存在完全连接的层，输入图像的大小应调整为224×224×3。网络配置详见表一。
论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution
其次，如图6（b）所示，固定VGG-16的微调卷积层，并在图像裁剪数据集（MSR-ICD[41]）中训练附加的累加层（即，全连接层）。让 $\Re$ 是地面真正的裁剪窗口和 $\tilde \Re$ 作为预测的裁剪窗口，训练阶段的欧几里德损失函数定义如下：
$L_{MSR-ICD} = \frac{1}{N_M}\sum_{i=1}^{N_M}\big |\big | \Re _i-\tilde \Re_i \big | \big |_2^2..........(14)$
由于训练集中的地面真实裁剪窗口不是固定的，虽然裁剪网络生成的缩略图在美学上有令人满意的效果，但是裁剪后的图像的分辨率可能与目标图像不匹配。为此，我们将这些裁剪窗口定义为候选窗口，并进一步细化候选裁剪窗口的位置以匹配目标分辨率。

C.裁剪窗口精细化

通过裁剪网络得到候选裁剪窗口后，利用候选裁剪窗口的坐标进一步细化目标分辨率上的裁剪窗口。考虑到缩略图的目的是提供尽可能多的有用信息，从全面性的角度出发，综合考虑物体、颜色和边缘能量的结合，最终生成符合要求的缩略图。我们在下面详细说明每个能量项。

物体能量 $E_{Object}$

根据文献[36]中的视觉模型，人们在观看低分辨率图像时往往会把注意力集中在图像中心。

在实现中，我们对六幅图像的显著性进行滤波，使双目融合区域中的显著区域尽可能靠近图像中心。物体能量项定义为：
$E_{Object} = \frac{1}{W_T\cdot H_T} \sum_{i=1}^{W_T}\sum_{j=1}^{H_T}I_{\tilde s}(i,j)\cdot G(i,j)............................(15)$

颜色特征能量 $E_{Color}$

裁剪后，如果颜色信息的损失足够大，裁剪后的结果就不能表征原始图像[7]。

通过转换到HSV颜色空间，当图像的饱和度（S）和值（V）均大于0.2时，我们将这些像素点作为颜色感知区域。然后，根据这些像素的色调分量的直方图，我们将图像的主色定义为[32]：
$N(i)=\left\{\begin{matrix} H(i), & if H(i)>m/20\\ 0, & otherwise \end{matrix}.............(16)\right.$
其中 $H（i）$ 是第i个单元的直方图，而 $m$ 是直方图的最大振幅值。在实验中，我们为直方图设置了20个bins。然后，我们进一步计算裁剪窗口中的主色，如下所示：
$N_c(i)=\left\{\begin{matrix} H_c(i), & if & H(i)>m/20 &and&H_c(i)>\beta \cdot H(i)\\ 0, & otherwise \end{matrix}.............(17)\right.$
其中 $H_c（i）$ 是裁剪窗口中第i个bin的直方图， $β=W_T/W_I$ 是目标分辨率和原始分辨率之间的比率。为了最大化裁剪图像和整个图像之间的主色，颜色特征能量EColor定义为：
$E_{Color} = \frac{ \langle N,N_c \rangle}{||N||_2\cdot ||N_c||_2}$

边缘特征能量 $E_{Edge}$

边缘是图像[7]中另一个重要的低层形状特征，因此我们在裁剪后的图像中额外考虑了边缘保持问题。

我们使用Canny边缘检测器检测原始图像和裁剪窗口中的边缘，并计算它们之间的边缘特征比率来表示底层信息的保存。边缘特征能量项 $E_{Edge}$ 定义为：
$E_{Edge} = \frac{|\Gamma|\cdot \beta}{|\Gamma_c|}.....................(19)$
其中 $|\Gamma|$ 和 $|\Gamma_c|$ ，分别是原始图像和裁剪窗口中检测到的边缘像素的总和。

总能量

由于裁剪窗口优化的目的是寻找与目标分辨率相匹配的最佳裁剪窗口，因此以候选裁剪窗口的中心为基准，确定裁剪窗口的最佳坐标为：
$x_l^* = {arg max}_{x_l\in \mathbb R}(w_1\cdot E_{Object} + w_2\cdot E_{Color} +w_3\cdot E_{Edge}).....(20)$
其中， $x_l$ 是滑动裁剪窗口的左上角坐标，它的起点在 $(\mathbb C[x]-W_T,\mathbb C[y]-H_T/2)$ , 而 $x_l^*$ 是精细化之后的左上角坐标，其中 $(\mathbb C[x],\mathbb C[y])$ 是候选裁剪窗口的中心坐标。

最大搜索范围 $\mathbb R$ 定义为最大水平范围 $[\mathbb C[x]-W_T,\mathbb C[x]]$ , 最大垂直范围 $[\mathbb C[y]-H_T/2,\mathbb C[y]-H_T/2]$

请注意，如果搜索范围超出了候选图像的边界，则将该边界用作起点或终点。

$w_1、w_2、w_3$ 是对应的能量项的权重，在这次实验中，我们分别取3，1，1。为了更好地理解裁剪窗口的细化，过程如图7所示。
论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution

IV.实验结果

A.数据集

略

B.定性分析

比较的方法：

方法	类别	论文
SOAT[26]	2D	J. Sun and H. Ling, “Scale and object aware image thumbnailing,” Int. J.Comput. Vision, vol. 104, no. 2, pp. 135–153, 2013.
AIC[28]	2D	Y . Deng, C. C. Loy, and X. Tang, “Image aesthetic assessment: An experimental survey,” IEEE Signal rocess. Mag., vol. 34, no. 4, pp. 80–106,Jul. 2017.
EC[27]	2D	J. Chen, G. Bai, S. Liang, and Z. Li, “Automatic image cropping: A computational complexity study,” in Proc. IEEE Conf. Comput. Vision Pattern Recognit., Las V egas, NV , USA, 2016, pp. 507–515.
A2RL[29]	2D	D. Li, H. Wu, J. Zhang, and K. Huang, “A2-RL: Aesthetics aware reinforcement learning for image copping,” in Proc. IEEE Conf. Comput.Vision Pattern Recognit., Salt Lake City, UT, USA, 2018, pp. 8193–8201.
CPC[17]	3D	W. Wang, J. Shen, Y . Y u, and K. Ma, “Stereoscopic thumbnail creation via efficientstereosaliencydetection,”IEEE Trans. Visualization Comput.Graph., vol. 23, no. 8, pp. 2014–2027, Aug. 2017.
OAC[17]	3D	同上

论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution

1）缩略图质量

我们分别在图9和图10中展示了不同长宽比的结果。

为了验证缩略图生成的性能，考虑了90×120、120×120和160×120三种目标分辨率。

从结果来看，我们有以下观察结果：

1） MSTGAR可以获得用户指定的不同图像的纵横比和分辨率，而其他方法只能生成预定义的纵横比或分辨率。如图9和图10所示，即使目标分辨率具有不同的纵横比，MSTGAR和CPC也可以正常比例显示对象和背景，而其他方法（例如OAC、SOA T、AIC、EC和A2RL）可能会以不同的分辨率过度挤压或拉伸对象和背景；
2）我们的MSTGAR在缩略图生成中实现了对象感知和内容持久性的折衷。SOAT和EC都未能有力地删除不重要的场景，以适当地强调对象性。SOAT可能会切割太多背景，导致对象表示太强，尤其是在图9中的#1∼2。同样地，EC也删除了图9的#2∼3中的过多信息，由于巨大的物体而导致视觉效果差。OAC的目标是使对象最大化，但输出的不是视觉上的愉悦。相比之下，CPC的目标是尽可能地保留图像内容，但弱对象性不满足观看低分辨率图像时对强对象性的要求。AIC和A2RL都能在全分辨率下产生美观的效果，但由于弱目标性，其结果不能应用于低分辨率的缩略图显示。由于我们的MSTGAR是OAC和CPC之间的折衷，它可以稳定地产生视觉上令人满意的缩略图。

2）深度感知

为了更好地理解后处理（即，缩放到指定分辨率）对立体图像的影响，我们示出图11中的视差图。
论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution
总的来说，MSTGAR在深度控制方面比其他方法有更好的性能，避免了重标度的影响。

C.定量分析

为了客观地评价我们的MSTGAR，我们使用IoU度量进行定量比较。

IoU被定义为提取的缩略图和地面真实裁剪窗口之间的交互区域除以它们的合并区域，为了避免参考图像和生成图像之间的不适当匹配，如图12所示，我们将IoU度量（IoU+）重新定义为缩略图和扭曲的地面真值网格之间的相交区域：
$IoU_+ = \frac{A_1}{A_2+A_1+A_3}$
论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution
其中红色矩形（A1+A3）和黄色矩形（A2+A1）分别表示地面真实和裁剪窗口，A1是缩略图网格和未扭曲/扭曲的地面真实网格之间的相交区域，（A2+A1+A3）是它们的并集区域。

除了以上定义的IoU+，我们还使用了最初设计用于图像重定目标质量评估的两个度量标准来度量缩略图中的几何失真和信息丢失：纵横比相似性（ARS）度量[9]和感知几何失真和信息丢失（PGDIL）度量[45]。所有比较方法的结果见表二，

论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution
总的来说，我们的MSTGAR可以在不同的目标分辨率上获得更丰富的裁剪信息、更少的几何失真和更少的信息损失。

D. 多重算子的影响

此外，为了更好地展示在我们的多运营商框架中翘曲和裁剪模块的影响，我们在图13中显示了有或没有裁剪的缩略图。从结果中可以得出两个重要结论：

1）无裁剪方案的结果与其他基于内容或美学的裁剪方法（如CPC、AIC和A2RL）相似，说明该方案不能很好地反映对象性。与此相反，采用裁剪的方案可以增强对象性。
2）与其他方法相比，裁剪可以通过高斯滤波来调整目标的位置，从而实现目标在图像中心的固定，而其他方法则忽略了这种操作。

E.计算复杂度分析

我们进一步测量了我们的数据库中的每个图像的MSTGAR的平均执行时间（以秒为单位），它使用3.6ghz英特尔i7 9700K CPU、2080Ti GPU和64gbram。

对于分辨率为883×500的立体对，翘曲操作和裁剪网络的时间分别为3.8秒和2.5秒。我们的方法消耗了适度的时间成本，因为操作六个比例的缩略图所花费的成本将是缩略图操作的近六倍。进一步的工作进一步加速我们的方法，使它适合于实时应用，可以充分利用并行计算技术，因为六个尺度的缩略图是高度并行的。

F.局限性

如前所述，MSTGAR是第一个探索任意分辨率立体缩略图生成的工作，它可以作为编辑工具来自由调整立体内容的大小和深度。尽管与其他方法相比，我们的方法表现出了很好的性能，但是它仍然有一些局限性：

1）现有的深度学习模型很难生成不同长宽比的缩略图，而额外的裁剪网络和裁剪窗口的细化增加了MSTGAR的复杂度。它被期望直接为期望的分辨率输出设计一个深度学习模型（例如，区域建议网络[46]，[47]）。
2）我们的目标显著性检测方法高度依赖于MSTGAR。如图14所示，显著性检测中的语义丢失会导致对象掩码不准确，并进一步影响裁剪内容的完整性。
3）除了用于观看低分辨率图像的深度优化的JNDD模型外，其他适合于不同显示设备的深度模型（例如近眼显示器）还需要进一步研究[48]。

[46]:K. He, G. Gkioxari, P . Dollár, and R. Girshick, “Mask R-CNN,” in Proc. IEEE Int. Conf. Comput. Vision, V enice, Italy, 2017, pp. 2980–2988.
[47]:S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,”IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137–1149, Jun. 2017.

论文阅读笔记---MSTGAR: Multioperator-Based Stereoscopic Thumbnail Generation With Arbitrary Resolution

MSTGAR:3D缩略图生成

I.介绍

II.相关工作

III.提出的方法

A.深度可控的多尺度缩略图生成

1）针对低分辨率图像的视觉模型

2）多尺度缩略图生成

B.裁剪网络

C.裁剪窗口精细化

物体能量EObjectE_{Object}EObject​

颜色特征能量EColorE_{Color}EColor​

边缘特征能量EEdgeE_{Edge}EEdge​

总能量

IV.实验结果

A.数据集

B.定性分析

1）缩略图质量

2）深度感知

C.定量分析

D. 多重算子的影响

E.计算复杂度分析

F.局限性

物体能量 $E_{Object}$

颜色特征能量 $E_{Color}$

边缘特征能量 $E_{Edge}$