与无监督哈希算法相比,监督哈希算法通过标签信息通畅能获取更好的模型性能。对于无标签的数据,如果我们能够挖掘其潜在的标签信息,并将其应用到模型训练过程中,可以明显提升无监督哈希算法的模型性能。本文提出一种利用预训练目标检测模型来挖掘标签信息的模型,其在2个数据集上的图像检索任务都超过了现有的最优模型。基于监督模型算法的良好表现,本文提出一种新的模型结构(ODDUH),其核心在于使用预训练目标检测模型来挖掘潜在标签信息,并用此信息辅助无监督模型的训练。

SIGIR 2019 | 多基于深度无监督哈希的目标检测算法

论文地址:
https://arxiv.org/abs/1811.09822

引言

鉴于标签信息对模型性能的影响,本文提出了一种基于深度无监督哈希的目标检测算法(ODDUH)。首先,我们需要在大数据集上预训练一个目标检测模型,该数据集包含了所有属于此哈希数据集的标签。然后预训练模型被用来挖掘图像的标签信息,即伪标签。同时,本文也设计了一种新的相似度准则(pair-wise percentage similarity),我们通过一个共享权重的CNN来获取图像的特征信息。最后,我们结合pair-wise percentage相似度信息与图像的特征信息来学习哈希方程,并最终获取高质量的哈希码。

数据集

文本实验是基于公开数据集Pascal VOC2007和BMVC2009。其中,Pascal VOC2007包含9963个多标签的图像,整个数据集大概有20个类别。BMVC2009包含96378个图像,数据集中的每个图像都与上述20个标签类别中的一个或者多个标签有关联。

模型

SIGIR 2019 | 多基于深度无监督哈希的目标检测算法

模型结构

假设数据集XX含有张图像X={xi}i1nX=\{x_i\}_{i-1}^n,该模型的目标是学习得到一个映射H:x1bi{1,1}kH:x_1\rightarrow b_i \in\{-1,1\}^k。对于一个输入图像xix_i,其可以被编码到k字节的二进制码bib_i中。由图可知,我们的模型结构包含3部分,即挖掘潜在标签信息、特征学习以及哈希方程学习。首先,我们采用YOLO v2预训练目标检测模型,并用其挖掘图像中的潜在标签信息。然后我们采用了卷积神经网络模型来完成图像特征的学习,其包含5个卷积层、2个全连接层。最后,我们通过k个单元的哈希层完成哈希方程的训练。事实上,实验中我们利用了一个element-wise sign方程sgn()sgn()来处理哈希层的结果,并得到二进制码。

相似度定义

对于很多图像,我们会挖掘出多个标签信息。为了更好地利用伪标签信息,本文设计了一个新颖的相似度计算准备(pair-wise percentage similarity),具体公式如下:
sij=<li,lj>li2lj2s_{ij}=\frac{<l_i,l_j>}{||l_i||_2||l_j||_2}

其中,<li,lj><l_i,l_j>表示内积运算,li{0,1}cl_i \in \{0,1\}^c表示伪标签信息。如果第ii张图像xix_i拥有第jj个伪标签信息,则lij=1l_{ij}=1,否则lij=0l_{ij}=0

模型训练

对于所有图像的二进制码B={bi}i1nB=\{b_i\}^n_{i-1},我们定义pair-wise percentage similarity的似然值计算如下:
SIGIR 2019 | 多基于深度无监督哈希的目标检测算法
其中,Ψij=12biTbj\Psi_{ij}=\frac{1}{2}b_i^Tb_jσ(Ψij)=11+eΨij\sigma(\Psi_{ij})=\frac{1}{1+e^{-\Psi_{ij}}}。同时,pair-wise similarity的损失函数定义如下:
SIGIR 2019 | 多基于深度无监督哈希的目标检测算法
其中,α\alpha是超参数。如果第ii个图像的伪标签与第jj个图像的伪标签是完全相似的,则Lij=1L_{ij}=1,此时sij=1{s_{ij}=1}或者sij=0s_{ij}=0。如果第ii个图像的伪标签与第jj个图像的伪标签是部分相似的,则Lij=0L_{ij}=0,此时0<sij<10<s_{ij}<1
对于pair-wise similarity的损失函数,它是一个离散的优化问题。本文重定义此损失函数如下:
SIGIR 2019 | 多基于深度无监督哈希的目标检测算法
其中,Θij=12uiTuj\Theta_{ij}=\frac{1}{2}u_i^Tu_juiRku_i \in R^k是哈希层的输出,ui=WTF(xi;θ)+vu_i=W^TF(x_i;\theta)+v。由于uiu_i不是二进制码,我们采用了一个量化损失使得uiu_i尽量靠近二进制码,此量化损失定义如下:Lq=inbiui22L_q=\sum^{n}_{i}||b_i-u_i||^2_2。把伪标签的pair-wise similarity损失与量化损失结合到一起,最终的损失函数定义如下:L=L2+βLqL=L_2+\beta L_q,其中是超参数。

评价准则

为了验证哈希码的有效性,我们通过多个不同的方法来评价图像检索质量。具体地,实验中我们用了AGG、NDCG、MAP以及W-MAP,其具体定义如下:
ACG@n=j=1nr(j)n[email protected]=\sum^n_{j=1}\frac{r(j)}{n}
DCG@n=j=1n2r(j)1log(i+1)[email protected]=\sum^n_{j=1}\frac{2^{r(j)}-1}{log(i+1)}
MAP=j=1nPjp(j)NMAP=\sum^n_{j=1}P_j\frac{p(j)}{N}
WMAP=j=1nACG@jp(j)NW-MAP=\sum^n_{j=1}[email protected]_j\frac{p(j)}{N}

实验

本文实验是基于数据集Pascal 2007以及BMVC2009,实验中用了8个基线模型,分别是LSK、ITQ、SH、PCAH、SGH、UH_BDNN、UTH、HashGAN。数据集Pascal 2007与BMVC2009中的每个图像都用512维的GIST向量表征,对于UH_BDNN模型,其用一个7层AlexNet的输出作为图像的表征。对于哈希层,我们调整图像的大小为224*224,并且直接用原始图像的像素作为输入。实验中,我们随机选取2000个图像作为训练集,剩余的图像作为验证集。YOLO v2模型的预训练是在数据集COCO2014上完成的,该数据集包含了81个类别。实验结果表明,我们提出的模型性能明显优于众多基线模型。
SIGIR 2019 | 多基于深度无监督哈希的目标检测算法
SIGIR 2019 | 多基于深度无监督哈希的目标检测算法

结论

本文作者认为潜在标签信息有利于提升模型性能,其在COCO2014上预训练YOLO v2。然后用该模型去学习图像的伪标签,并将该伪标签作为额外信息用于无监督模型的训练中。本文提出了一种新的模型(ODDUH),在多种数据集上,对比了多个基线模型,验证了该模型的合理性。


SIGIR 2019 | 多基于深度无监督哈希的目标检测算法
扫码识别关注,获取更多新鲜论文解读

相关文章:

  • 2021-11-23
  • 2021-06-27
  • 2021-07-24
  • 2022-12-23
  • 2021-04-21
猜你喜欢
  • 2022-12-23
  • 2021-04-27
  • 2021-11-08
  • 2021-11-29
  • 2021-08-24
  • 2022-01-06
  • 2021-05-10
相关资源
相似解决方案