Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

时空视觉显着引导感知高效视频编码与神经网络

用于优化的感知视频编码系统是在人类视觉系统的不同属性的基础上开发的。基于注意力的编码系统被认为是其中的重要部分。由于计算机性能和视觉算法的进步，表示来自视频信号的感兴趣区域（ROI）的显着图方法已成为可靠的方法。在本研究中，我们提出了一种混合压缩算法，该算法使用深度卷积神经网络来计算空间显着性，然后从压缩域运动信息中提取时间显着性。计算不确定性水平以组合形成视频的显着性图。然后，在HEVC中动态调整QP搜索范围，并提出速率失真计算方法来选择模式并在视频压缩过程中指导比特分配。经验报告结果证明了所提出的方法相对于最先进的感知编码算法在显着性检测和感知压缩质量方面的优越性。

不断取得进展，以更深入地了解人类视觉系统的感知特征和更高性能的计算模型。这使得通过在视频压缩期间消除人们的感知冗余来最大化感知质量[1]。对人们感知系统的研究对视频信号的处理具有重要意义。最近，人们越来越关注通过将人类感知计算模型引入视频编码系统来开发增强视频感知质量的想法[2]。通常，在设计感知编码系统时需要解决以下三个挑战： - 确定用于查找易受编码失真影响的视频数据部分的感知模型类型。 - 确定在编码中集成公司感知模型的方法。 - 验证算法的有效性。基于注意力的感知编码系统是重要的学科之一。通常，这种类型的方法从计算视频帧的显着性特征图开始。最新研究的眼动追踪[3]对自然图像的任务自由观察的观察间的变化已经发现，具有已知显着区域的图像为不同的观众创建了极其相关的眼睛固定图。此外，随着显着性模型的定期推进，已经证明吸引人类注意力的视觉显着区域与人类感兴趣的区域更为一致[4]。在基于显着性的视频压缩方法中，更多比特被分配给ROI以减少失真，并且更少数量的比特被分配给非ROI部分以优化压缩比。通过这种方式，该方法在不增加总位数的情况下提供了更好的感知质量。一些基于显着性的方法试图从不同的角度提高压缩效率[5-18]。自下而上模型被引入感知模型。例如，Itti等人。专注于颜色，闪烁，亮度，方向和运动，提取低级特征并以非线性方式组合显着性。最后，他们提出了一个模型，该模型以灵长类动物大脑中低水平视觉神经元的响应特征为中心[5]。李等人。 [6]提出了3个特征图，包括不同的中心 - 环绕多尺度比，颜色空间方差和脉冲DCT。在一些工作中使用了上下模型来确定ROI根据面[8-10]或移动物体[11,12]的边界。该研究的作者[13]提出了一种聚合空间和时间显着图的方法。视频压缩框架的大部分工作都侧重于通过考虑显着性来进行优化。在最常用的方法中，量化参数适用于不同的宏块[13-16]，以确保使用小的QP值在感知上重要的宏块具有更高的编码质量。在[17]中，不同的编码参数（例如，ME搜索范围）被分配给ROI和非ROI部分。在[7,18]中，通过将失真度计算方法适应不同的模式来优化速率失真。视频编码标准的发展导致越来越多的感知编码算法。例如，利用可比较的解码器，基于HEVC的方案用于通过调整CU分区来分配比特。在基于H.264的方法和其他旧标准中，这种改进是不可能的。在本研究中，我们基于最新的HEVC框架提出了一种混合感知编码算法。该方法涉及显着性检测，编码策略优化和客观评估。

我们提出了一种时空显着性组合算法作为感知模型。众所周知，视频的空间显着性与图像的显着性非常相似，近年来已经证明了卷积神经网络的有效性。因此，我们设计了一个卷积神经网络来测量视频的空间显着性。关于可行的压缩域运动检测技术的研究已经进行了很长时间。我们可以通过处理在编码过程中获得的运动检测结果来计算视频的空间显着性。我们计算了空间和时间域中显着性图的不确定性，然后将它们的不确定性结合起来形成视频的显着性特征，作为[19]中提出的工作的动机。我们还提出了一种视频压缩算法，该算法以动态失真的动态调整为中心。通过块分区，帧间和帧内搜索，我们可以在HEVC中提供比在H.264中更多的备份模式。为每个部分手动设计自定义策略并不像H.264那样可靠，强调了为选择模式制定统一标准的必要性。本文提出了一种速率失真优化算法来解决当前的问题。实际上，模式选择被认为是用于降低给定速率的失真D的值的优化问题。它可以定义为下面描述的（1）：min {D}受R≤Rc（1）其中，R和D分别代表速率和失真。上面引用的优化约束问题可以通过如下面描述的（2）中描述的拉格朗日乘数法重写为无约束形式：min {J}，其中J = D +λR（2）其中，J和λ表示拉格朗日成本函数和Lagrange乘数分别。通常，λ是通过经验结果和典型的速率 - 失真模型获得的[20]。 [40]中的研究表明，λ可以根据帧间相关性进行调整，以获得更好的R-D性能。为了获得更好的感知R-D性能，我们提出了一种基于显着性的算法来计算D，其中通过改变视频的比特分配策略来消除感知冗余。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

2 视频中的显着性估计
2.1。空间显着性
当我们谈论视频的空间显着性时，我们实际上是在讨论视频中每个帧的显着性。图像的显着性检测的各种计算模型已由Itti等人初步确定[2,4,5]。 [5]。基于CNN的显着性算法近年来已证明其优于其他方法。 Convnets是深度学习领域的常见架构。这些架构已经深入研究了视觉模式识别，其应用范围从全球尺度图像分类[21]到更局部的物体检测[22]或语义分割[23]。包含有针对性的层的结构是生物模型的灵感。甚至，文献中也强调了大脑某些区域的活动与网络层次的层次结构之间的关系[24,25]。这些评估结果显示出更好的结果，并且通常在大量训练数据方面优于其他手工制作的方法[26,27]。在所提出的研究中，我们采用了如图1所示的多层卷积神经网络。建议的网络由10个重量层组成，总共有2580万个参数。如研究[28]所述，前3个权重层的体系结构与VGG网络的体系结构兼容。这些层可以分类如下：（1）卷积层。卷积层旨在检测先前层的局部特征模式和局部连接，其中神经元在特征图中组织。对于L -1层的第j个通道，卷积运算可写为：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

整流线性单元非线性（ReLU）跟随每个循环层。（2）本地响应规范化（LRN）层。该层可以增强模型的泛化能力。在第L个LRN层中，响应归一化输出由表达式给出

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

（3）汇集层。该层通常遵循卷积层以混合语义相似的特征。最常见的是max-pooling操作，它使用滑动内核s×s来选择前一层特征映射中内核窗口覆盖的局部神经元片段的最大值。前两个卷积层后面是汇集层，用于在中间层中有效地减少特征图的宽度和高度四倍。（4）反卷积层。最终卷积后，该层可用。它创建了一个显着性图，用于在宽度和高度方面匹配输入。我们建议利用转移学习，从研究[28]中描述的VGG CNN M网络的预训练权重开始，初始化三个卷积层的权重。初始化完成的行为类似于正则化器，并且能够改善最终网络的结果。研究[29]中描述的策略用于初始化网络的其余未初始化权重。在几种标准预处理技术之后，所提出的网络是在SALICON数据集中可用的10,0 0 0训练图像中的90 0 0训练图像。我们的网络是一个能够生成显着热图的端到端网络，我们用S代表它。下图显示了从建议的CNN模型中获得的显着性图，原始图来自[35]中数据集的母亲和女儿。可以观察到，所提出的CNN模型能够找出感兴趣的区域，即两个面和母亲的手（图2）。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network
2.2。时间显着性
众所周知，视觉注意力中最坚固的吸引子之一就是物体的运动[30,31]。在现有技术中，在视觉注意的计算模型中提出，时间显着性可以根据局部运动对比来近似[5]。假设在其周围具有足够运动的物体被视为视觉系统的强烈，吸引注意力的“范围”[13]。 HVS被认为是一个有效的信息提取器，专注于这样的事件[37]。因此，关于运动速度的感知先验概率分布测量运动的视觉注意力[19]。快速移动的物体会吸引视觉注意力。然而，在通过移动相机拍摄时存在全局运动。局部运动对比度可以解释为物体相对于其周围的移动速度。它由对象的绝对速度和全局速度之间的差异给出。我们使用通过HEVC压缩搜索过程获得的信息来近似图像中每个块的移动。我们采用研究[32]中提出的全局运动补偿算法来保持全局运动不受干扰。简而言之，将在HEVC压缩期间从图片组（GOP）中发现当前帧中的每个CU的最佳匹配。在此过程中，将计算与每个CU的匹配相关的速率失真成本。可以将速率失真成本最小化的运动搜索结果记录为该CU的运动矢量。我们可以通过计算每个CU的运动矢量来获得当前帧的运动特征图。

从每个CU的平移运动矢量获取的运动特征图包含相机的运动信息。但是，我们关注的是相对于全局运动的前景对象。借助于全局运动估计（GME）测量视频序列中的相机运动。它在基于内容的视频分析中是有益的，例如视频对象分割，背景建模，视频索引等[32]。根据[38]中描述的研究，使用最常用的八参数透视模型总结了四个二维运动模型，即几何，平移，仿射和透视。透视模型以其参数向量表示，m = [m 0，...。。，m 7]。透视变换的定义如下式所示

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中，（x，y）和（x？，y？）分别表示当前帧和参考帧中的坐标。在[32]中提出了一种计算GME的方法，同时消除了异常值的干扰，这些干扰在使用编码信息获得的运动特征图中非常常见。在消除背景运动的干扰后，我们将其视为时间显着图，S t。下图是[35]中足球视频实现的这种方法的一个例子。由于使用基于HEVC的CU结构，结果中不可避免地存在明显的块。请注意，原始视频的相机拍摄速度非常快，但我们的方法仍设法有效地消除了这种类型的背景运动（图3）。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

2.3。时空显着性组合
时空显着模型开发中的一个重要问题是确定整合可用的空间和时间显着性图的方法。大多数现有方法通常采用由固定权重组成的简单组合规则。在[13]中描述的研究中使用以下等式来组合时空显着性。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

在他们的方法中，他们通过在固定步骤遍历给定范围来搜索最佳参数。但结果β= 1是测试范围的边界[13]。方等人。建议用基于熵的不确定性图来重新显示每个显着性图，并根据局部不确定性度量自适应地混合显着性图[19]。作为动机，我们改进了不确定性的计算。我们的方法依赖于格式塔理论[33,34]来计算空间显着性的不确定性。这些原理适用于如下所述的视觉显着性：首先，更靠近图像最密集显着区域的空间位置可能更像是一个显着的位置或位置;其次，与其他显着性区域更相关的空间位置更可能是一个显着的位置。对于给定图像及其地面实况显着图S s的特定情况，其显着图的预期中心位置计算如下面的等式所示

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中，R S s分别表示一组所有基础真实显着像素和Mis它们的总计数。此外，可以计算从预期显着性中心（x sc，y sc）到图像中的任何位置（x，y）的空间距离d，以在d方面继续候选显着像素的概率。在[19]中提出了一个模型，并在[39]中的数据集上验证了它的性能：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中，p（s | d）表示从显着中心（x c，y c）给出距离d的候选显着像素的概率。给定这种概率模型，衡量概率不确定性水平的常用方法是计算可能性的熵：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中，H b（p）表示使用表达式-p log 2 p - （1 -p）log 2（1-p）计算的二元熵函数。像素之间的关联也极大地影响像素的显着性可能性（连续性的属性）。使用下面描述的等式计算每个像素的连通性：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中，R N给出除了自身之外与当前像素直接相邻的像素集。以同样的方式，我们可以将像素的不确定性表示为显着像素，如下面的等式：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

最后，可以按照等式计算空间显着性中每个像素的总不确定度。（12）具有接近度和连通性之间的假设依赖性：U（s）= U（d）+ U（c）（12）

关于具有许多移动物体的视频，相对于背景移动得更厉害的视频更有可能吸引人们的注意力。我们的时间显着性算法已经结合了全局运动补偿。因此，可以认为背景仍然在领先的时间显着性图中。因此，前景中移动物体的中心被计算为

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

类似地，R S s分别包含一组所有地面真实显着像素及其总数。当几个物体在视频中无序移动时，它们的突出概率小于均匀移动的物体。我们使用时间显着图中的偏差的二次和来测量图像中运动物体的无序水平。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

与空间显着性计算方法类似，这些对象在图像中标记为显着的不确定性可写为：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

不同之处在于，这种不确定性由帧的整个时间显着性图共享。对于时间显着性图中的每个像素，我们对空间域采用相同的概念。也就是说，与其他像素连接的像素具有被标记为显着的较高概率。可以使用上述用于计算空间显着性的连通性的方法来计算它。由此产生的不确定性类似于空间域的不确定性。

U（c）= H b（p（s | c））（16）

最终，时间显着图的不确定性可以如下计算：

U（t）= U（SS）+ U（c）（17）

最后，组合计算的空间和时间显着性图以便创建整体时空显着性图。通常，较高的权重值被分配给具有较低不确定性的显着性度量。它导致下面的等式中描述的不确定加权（UW）融合规则：

S =（ U（t）S（s）+ U（s）S（t））/（U（s）+ U（t））（18）

这里，具有超空间和时间的空间和时间不确定性图的变化能力允许融合规则具有时空自适应性。它使用固定加权方案将规则与现有规则分开，以结合空间和时间显着图。图4显示了一个示例视频帧及其映射。从图中可以清楚地看出，两张地图都有效识别潜在的显着物体。融合的整体显着性图适当地预测视觉注视的实际位置。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

3.视频压缩
我们计算视觉显着性的目的是确保高显着性区域的高压缩质量，即高度可能在统计上吸引人们关注的区域。这是在进行改进时遵守的规则。
3.1。 QP搜索
在感知编码系统上已经完成了许多工作，以便更有效地编写ROI代码。例如，量化参数，参考帧的数量和移动搜索的范围可以适应于不同的ROI。最常用的策略是使量化参数适应不同的宏块[13-16]，通过使用较小的QP值编码更具感知重要性的宏块来保证更高的质量。这些方法在实践中产生了改进。我们提出了一种更灵活的方案来选择QP。我们不是使用公式计算每个CU的偏移量，而是根据CU的显着性确定QP的范围。将得到的QP值中的每一个视为模式，并且使用速率失真优化方法来计算速率失真成本。降低速率失真成本的QP被定义为视频编码的最终值。 HEVC利用四叉树分裂和递归结构来分割CU。 CU可以被分成具有相同大小的四个PU，用于预测编码的角色。 CU的大小在6 4×6 4到8×8的范围内。而帧内预测的PU大小在64×64到4×4的范围内。 QP的调整基于CU作为一个单元进行。在对图像的每个帧进行编码之前，我们需要执行一些预操作以获得每个CU的平均显着性，从而简化后续操作：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

在对CU进行编码时，策略应该动态地适应其显着性。对于非常突出的CU，我们期望高质量的编码，并且愿意承担大量的比特和编码时间。因此，我们为每个CU设置QP的上限和下限：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中rdenotes QP的范围限制。归一化后，ΔQP的范围是（-r，r）。范围越大，性能越好，计算复杂度也越高。在本文中，我们设置ras 4并计算QP范围，CU大小设置为64×64。我们将（Q P min，Q P max）中的每个积分QP遍历为QP模式，计算其速率失真成本，然后使用下一小节中讨论的速率失真优化方法进行选择。通过这样做，我们获得了以下好处。先前的QP偏移计算公式得到了少数结论性理论的支持，并且通常通过实验确定。但我们选择的QP依赖于速率失真成本。如实验中所示，除了根据不同需求调整位数之外，我们的方法还提高了编码质量。

3.2。感知率失真优化
信号处理的视角主要被视为传统速率失真优化（RDO）视频编码的失真度量。然而，它确实考虑了视觉感知的所有属性[18]。在计算速率失真成本期间，视频信号中的每个像素被均等地处理并具有相同的权重。这可以写成：min {J}，其中J = D +λR（23）其中，J和λ分别表示拉格朗日成本函数和拉格朗日乘数。一般来说， Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network 决定了实验结果和典型的速率 - 失真模型。根据方程式中描述的度量来量化失真。（24） - （26）按照[9]中提到的研究：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中，HT（i，j）在Eq。（26）表示通过对两个块的块差采用Hadamard变换而获得的块的第（i，j）系数。用于计算失真的传统方法纯粹基于信号处理，并且这些方法用于优化速率失真的有效性几乎相同。人体敏感度的失真在不同地区之间变化。发现在高度关注的位置处，失真的视觉感知强度更高。因此，我们提出了一种通过联合考虑感知模型和当前块显着性来计算速率失真的新方法：D s = D×（1 + POP×SO）（27）其中，D表示计算的一般方法速率失真，例如SSE和SAD，POP表示可以手动设置的感知优化参数。 POP用于控制显着区域失真和整体失真之间的平衡。 SO表示位于（-1,1）范围内的当前块的显着性偏移。它可以计算为：SO = (S cu -S avg)/( S cu + S avg（28）)在进行这些改进之后，与高显着性区域的编码相关的失真成本将增加，因此编码策略将倾向于提高编码质量并增加位数。这种方法能够共同考虑HEVC中的各种模式，如CU分区和搜索，从而全局优化参数。 POP可以确定应该为高显着性区域分配多少比特。相关的实验结果将在下一节中给出。

4.实验结果
当前部分首先对所提出的显着性模型的性能进行评估，并将其与经典的IKN模型和研究中提出的模型[13]进行比较。然后，将所提出的压缩方法的有效性与HEVC的标准测试软件HM和[13]的研究中提出的方法进行比较。
4.1。显着性
为了对提出的显着性模型进行性能评估，使用[35]研究中描述的数据集将其与[13]中的IKN模型和研究中提出的模型进行比较。该数据集包含用于12个标准测试视频序列的两个视图的眼睛跟踪数据。这些序列中的对象类别以及它们的采用方式差异很大。有些视频包括快速移动的物体，如船员（包括一些步行消防员）和足球（包括足球运动员和足球），平静的场景，如大厅监视器，复杂的图片，如公共汽车和人工为中心的图片，如工头和母亲和女儿。 IKN模型[36]的原始实现已用于产生其结果。根据研究[5]中提到的视频IKN模型的原始实现的描述，主要存在两个归一化算子，用于聚合显性和特征映射，即Maxnorm和Fancyone。 Maxnorm产生更平滑，更连续的显着图，而Fancyone产生越来越稀疏的显着图，只有几个尖峰[5]。 Maxnorm算子更适合视频压缩，因为它比Fancyone创建更平滑的显着性图[5]。因此，我们采用Maxnorm进行当前研究中的实验。研究[13]中描述的显着性方法既包括空间显着性的组成部分，也包括时间显着性。前一个分量是空间IKN显着性的凸近似，而后一个分量涉及全局运动补偿，以消除相机运动对显着性近似的影响。最后将空间和时间显着图线性地聚合以产生最终显着性图。根据接收器操作特性（ROC）和相似性得分（SIM）度量来评估显着性模型的性能。因为，ROC被发现是社区中最常用的度量标准。可以用曲线下面积（AUC）度量来描述整体性能。 AUC的值为0.5表示该模型有机会预测人类凝视。但是，AUC的较大值表示模型的预测性能更好。毫无疑问，ROC分析是有益的。但是，它缺乏描述预测显着性图与实际固定图的空间偏差。错误的预测显着位置靠近或远离实际的突出位置导致不同的性能。为了进行更全面的评估，我们的实验也考虑了相似性度量。相似性得分（SIM）测量两个分布之间的相似性。相似度是在将每个分布总和缩放为1之后获得的分布中的每个点处的最小值的总和。在数学上，两个地图A和B之间的相似性S可以如下面的等式所述计算：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

根据研究[35]中描述的12个视频，在ROC，AUC和SIM度量方面，将所提方法的性能与IKN [5]和SAVC [13]的性能进行了比较。图图5和6描绘了整个数据集上三种方法的ROC曲线。然而，图7显示了平均结果。与其他两种方法相比，可以观察到所提出方法的优越性能。还可以推断SAVC报告的结果比IKN更好。表1列出了所有视频的SUC和SIM数据以及最终结果。报告结果表明，在所有12个视频中，所提出的方法优于IKN [5]和SAVC方法[13]，并且在某些情况下导致大幅度提高。例外是海港的SIM分数（IKN 0.63与拟议的0.61）和移动日历（IKN 0.57与拟议的0.56），其中所提出的方法略微内部于其他方法。这两个视频都有很多运动物体。 Oh和Kim [12]指出，当运动模糊发生时，人类视觉感知不遵循运动速度，这可以解释结果。并且对于一般情况，可以表明所提出的显着性估计方法将受到视频内容的影响。图8是从Foreman框架生成的，包括来自[35]中数据集的实际凝视位置的热图，以及IKN [5]，SAVC [13]的显着图和所提出的方法。从这些图中可以知道，自下而上的IKN模型[5]侧重于低级信息，并没有有效地描述图像的语义模型。通过添加运动信息，SAVC [13]的性能优于IKN [5]。所提出的方法结合了语义CNN模型和运动模型，因此优于其他两种算法。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network
4.2。 QP搜索
如第3节所述，建议的方法将从显着性计算的范围中选择QP。图9（a）显示了Foreman框架中的QP范围。该帧的显着图在图8中给出。基本QP设置为32.请注意，此范围的一端是基本QP，此图显示另一端。图9（b）显示了通过压缩程序计算的实际QP图。作为比较，图9（c）示出了通过多QP优化方法计算的QP映射，其中QP范围被设置为4.GOP大小被设置为1并且编码结构中的QP偏移被禁用。实验结果表明，提出的方法降低了面部的QP，从而可以更好地获得更好的压缩质量。并且它还减少了周围环境部分的QP以节省比特。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

4.3。提出的视频压缩方法的定量评估
根据[6]研究中提出的眼睛跟踪加权均方误差（EWMSE）度量，评估所提出的显着性感知视频压缩方法的主观质量。表达式中描述的表达式。（30）用于计算编码视频帧的EWMSE值，如研究[6]中所述。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

，F？ x，y和F x，y表示编码帧F的位置（x，y）处的像素。和原始帧F，分别。 W和H分别表示F的宽度和高度。 w x，y表示像素位置（x，y）处失真的权重。失真的权重值按照等式计算。（31）以下描述：

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

其中，（x p g，y p g）给出眼睛跟踪数据库中提供的第g个对象的眼睛固定位置，如研究[35]中所述。眼睛跟踪数据库中有15个受试者，即G =15.σx和σy表示根据观察距离和视角指定高斯函数的范围或宽度的两个参数。 σx和σy的值可以根据视角约2 -5°的中央凹大小来确定[6]，[35]。在这项研究中，我们指定σx=σy= 64像素，相当于视角的2°，如研究[6]和[35]中所述。可以根据根据等式1定义的EWPSNR度量导出等效的眼睛跟踪加权PSNR。 32如下：
Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network

在提出的实验中，EWPSNR的平均值被视为视频主观质量的度量。因此，度量的高值表示编码视频的更好的主观质量。已经将所提出的视频压缩方法与具有低延迟P配置的HEVC标准参考软件HM和在研究中描述的QP动态调整方法[13]在几个双向的平均EWPSNR方面进行了比较。研究[13]中提到的算法具有H.264的基础，并通过HEVC实现，以提高可靠性。 GOP大小设置为1，并且禁用编码结构中的QP偏移。并且所提出的方法的感知优化参数（POP）设置为0.5。通过使用研究中给出的眼动追踪数据，将来自研究[35]的总共12个标准CIF序列与计算EWPSNR一起使用[35]。显着性模型对实际人体固定点的密切预测导致对平均EWPSNR值的更好期望。上述方法利用IPPP的GOP结构以不同比特率编码所有视频。为了获得不同的比特率，使用22到37的值以5的间隔创建4个QP值。图10和11描绘了RD曲线的图。最常用的度量BD-PSNR根据PSNR差异评估两条RD曲线之间的平均差异。以相同的方式，计算编码视频的BD-EWPSNR值。标准HM 16.8软件被假定为基线。为了综合评估，根据BD-PSNR和BD-EWPSNR度量的计算值进行方法的比较。在表2中描述了所提出的方法与SAVC和多QP优化方法（MQPO）以及HM16.8的BD-EWPSNR和BD-PSNR在研究[35]中描述的数据集上的比较[13]。 MQPO方法的搜索范围设置为4，与所提出方法的最大搜索范围相同。报告结果表明，该方法的EWPSNR平均值比HM高0.439 dB，SAVC [13]高0.391 dB（= 0.439 dB-0.048 dB）。它证明了所提方法相对于SAVC的有效性和优越性[13]。并且它还证明了这种增益不仅来自多QP优化方法。基于BD-SSIM和BD-VQM的该数据集的另一种比较在表3中。两种感知压缩方法平均比标准方法更差。这可能是因为SSIM和VQM都会引起视觉注意（即显着性），而SSIM则忽略了时间质量[13]。所提方法的不同POP值对结果有影响。为了获得不同的结果，使用0到0.9之间的值创建10个POP值，间隔为0.1。图12显示了与POP设置相关的变化。该结果表明，当更多比特分配给人类感兴趣的区域时，EW-PSNR增加，但PSNR减少。
4.4。主观评价
图13示出了给定量化参数为36的来自Foreman的第18帧的重建结果。可以得出结论，通过所提出的方法压缩的视频在面部中具有比HM 16.8更多的细节。例如，右眼的白色反射点在HM 16.8压缩图像中消失。但是这种方法不会发生。显然，人们的注意力集中在这个形象的男人的脸上。因此，所提出的方法增强了视频观看体验。最后，我们对使用所提出的压缩方法编码的序列与使用HM 16.8编码的序列的感知质量进行了主观评估。我们使用两种替代强制选择（2AFC）方法[41]来比较主观视频质量。在2AFC中，要求参与者在两种选择之间做出选择，在这种情况下，使用所提出的方法编码的视频与使用FJND编码的视频。这种比较质量的方式比基于比例的质量评级更容易受到测量噪声的影响，例如平均意见得分（MOS）和双重刺激连续质量量表（DSCQS）[42]，因为参与者的任务比映射质量简单得多到一个规模的数字。来自数据集[35]的所有12个CIF序列用于实验。使用两种压缩方法用低延迟P配置编码所有序列。编码视频的平均PSNR约为32 dB。在每次试验中，参与者在中间背景上水平分开1厘米的同一垂直位置，并排显示两个视频。每个视频对显示10秒。演示结束后，显示中灰色空白屏幕5秒钟。在此期间，参与者被要求在答题纸上指出两个视频中的哪一个看起来更好（左或右）。他们被要求回答左或右

图13示出了给定量化参数为36的来自Foreman的第18帧的重建结果。可以得出结论，通过所提出的方法压缩的视频在面部中具有比HM 16.8更多的细节。例如，右眼的白色反射点在HM 16.8压缩图像中消失。但是这种方法不会发生。显然，人们的注意力集中在这个形象的男人的脸上。因此，所提出的方法增强了视频观看体验。最后，我们对使用所提出的压缩方法编码的序列与使用HM 16.8编码的序列的感知质量进行了主观评估。我们使用两种替代强制选择（2AFC）方法[41]来比较主观视频质量。在2AFC中，要求参与者在两种选择之间做出选择，在这种情况下，使用所提出的方法编码的视频与使用FJND编码的视频。这种比较质量的方式比基于比例的质量评级更容易受到测量噪声的影响，例如平均意见得分（MOS）和双重刺激连续质量量表（DSCQS）[42]，因为参与者的任务比映射质量简单得多到一个规模的数字。来自数据集[35]的所有12个CIF序列用于实验。使用两种压缩方法用低延迟P配置编码所有序列。编码视频的平均PSNR约为32 dB。在每次试验中，参与者在中间背景上水平分开1厘米的同一垂直位置，并排显示两个视频。每个视频对显示10秒。演示结束后，显示中灰色空白屏幕5秒钟。在此期间，参与者被要求在答题纸上指出两个视频中的哪一个看起来更好（左或右）。他们被要求为每个视频对回答左或右，无论他们对他们的回答有多确定。参与者不知道所提出的方法产生了哪个视频，哪个视频是由FJND制作的。随机选择的一半试验将所提出的方法产生的视频放在屏幕的左侧，另一半放在右侧，以抵消响应中的侧偏。这给出了总共12×2 = 24次试验。比较结果如表4所示。在表4中，我们显示了对标准方法优于所提出方法的响应数。实验结果表明，该方法具有非常显着的效果。
4.5。计算复杂性
所提出的方法在HEVC参考软件HM 16.8中实现。对于采用8 GB RAM和NVIDIA Ti-tan X GPU的Intel Xeon E5-1620 v3 CPU @ 3.50 GHz上提出的方法，每个CIF分辨率帧的平均编码时间约为49 s。作为比较，QP范围设置为4的多QP优化方法的每个CIF帧的平均编码时间约为113s，而传统方法的每个CIF帧的平均编码时间为14s。因此，虽然提出的方法比传统方法慢约3.5倍，但它比多QP优化方法快约2倍。 5。
结论
在目前的研究中，我们建议采用视觉显着引导的视频压缩视觉方法。首先，我们使用时空显着性组合方法计算视觉显着性，并且还使用现有技术CNN和从压缩过程获得的运动信息来联合计算空间显着性。通过以加权方式动态组合不确定性来确定最终显着性图。我们还提出了HEVC的感知压缩算法。根据显着性计算每个CU的动态QP范围。关于速率失真方法，提出了一种感知失真计算方法来动态地改变压缩策略。实验结果证明，该方法优于传统方法和最先进的显着性算法。我们整个系统的压缩性能是最先进的。

Spatiotemporal visual saliency guided perceptual high efficiency video coding with neural network