摘要:
本文算法是基于小波变换基础上,对左右单视图进行2D特征提取,将其作为图像的内容描述,并且从深度感知图中提取3D特征作为深度感知描述。深度感知图(DPM)被用来量化纵向深度信息来描述立体视觉感知,2D特征包括高频小波系数的HoG特征和全局统计信息包括幅值,方差和熵值,来自DPM的 全局统计特征作为3D特征。训练和测试时,三个DBM模型用来训练三种特征并得到最后的质量分数。
介绍
主要贡献:
- 大多数现有的算法使用双眼之间的绝对视差作为深度感知,但是忽略了主观立体感知是由双眼的正负视差得到的。在本文中提出了一种新的深度感知图来量化纵向深度信息,使之与人眼感知深度一致,可以直接反映人眼对场景相对位置和屏幕产生正视差和负视差的直观感受。
- 人眼对高对比度区域非常敏感,如边缘、纹理和失真常常影响到立体图像的高频成分。传统的度量方法通常直接从样本或预处理图像中提取HoG特征。为了获得更有效地反映立体图像质量的特征,本文提取了高频子带系数的HoG特征作为视觉灵敏度的描述。据我们所知,我们是第一个使用基于高频小波系数的HoG特征来评价立体图像质量的;
- 提出了一种新的双目权值系统来获得立体图像的内容质量。在考虑双目特征的基础上,研究了左右图像的多尺度感知特征,设计了动态加权系统。
相关工作
纵向深度感知理论
当人们看3D电影时,会感觉到电影中的场景在屏幕内或在屏幕外,这就是神单独感知。受此启发,将这种感知定量化,从而将物理量转化为指标,可以进行处理。
L1,L2为左视图在两个点在屏幕上的位置,R1,R2为右视图的两个点在屏幕上的位置,当R1在L1右侧时,视差为正,人眼感觉到的是该点Q1在屏幕内,当R2在L2左侧时,人眼感觉到的是该点Q2在屏幕外,根据这可以得到视差与深度信息的关系。
视差和深度感知大致成反比关系,P为视差,R>L表示R在L右侧,V表示深度感知。
传统的视差图和DPM对比。
NSS特征
计算自然图像的统计特征,具体计算公式如下,分别为均值,方差和熵值C(k)表示第k个子带的系数。
首先对图像进行4个尺度3个方向的小波分解,计算出各子带的幅值;由于同一尺度上的低-高和高-低子带的相似性,取两个子带的平均值作为低频子带的大小。之后按照上式计算即可得到NSS特征。
HoG特征
为了更好的获取信息和理解图像,人眼倾向于观察对比度高的区域,如边缘、纹理等。考虑到图像对比度主要是由梯度变化引起的,我们利用HoG算法来提取梯度特征。
为了减少亮度信息的影响,对图像进行归一化
计算图像的梯度幅值和方向
最终计算梯度方向直方图作为特征。
本文算法
图像的内容质量感知特征
对左、右图像分别进行4个尺度、3个方向的小波分解,分别得到12个子带的系数。以左图为例,计算每个尺度下的高-低、低-高、高-高子带的幅值,由于高-低子带和低-高子带的相似性,低频的幅值取两个子带系数的平均值,而高频的幅值取高-高子带的结果,图像总共有8个幅值,类似的计算系数的方差和熵值,这样左右图分别会得到24个特征。
使用Hog提取高频子带的特征,这里一个单元是由组包含8×8像素的块组成的并且梯度方向分为4部分的间隔是π/2。对于每个单元格,在4个角度间隔中有4个HoG特征。为了减小局部光强和对比度变化对梯度光强的影响,将多个单元单元组合成相互连通的大块,其特征通过下式归一化
这里左右视图可以得到16个特征。
DBN模型的训练
如上图所示,训练可分为两阶段,第一阶段是使用无监督对三个子DBN模型进行预训练,第二阶段使用DMOS进行微调训练,这样可以得到三个DBN模型。
图像质量池化
使用多尺度下的能量权重,将左右视图的质量进行加权和,得到图像内容的预测分数,左右视图的权重计算如下:
借此可得到图像内容的预测分数
最后加上深度特征预测的质量分数即可得到最终的质量分数