1.概述

这篇论文实现了一个AsymNet,用来从视频中匹配到和图片中相似的衣服。
大致思想是用特定的网络抽取图片中衣服特征,用物体检测和跟踪算法抽取视频中的衣服特征,然后对两种特征进行相似度计算,得到相似度分值。

2.网络结构图

论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images

3.特征提取网络

3.1IFN

论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images
IFN网络结构基于VGG16
首先,商品的图片经过Faster-RCNN网络,检测到衣服区域。然后,再把衣服区域经过IFN网络,得到最后的特征m。因为输入的衣服区域是任意大小的,卷基层和池化层对输入大小没有要求,但是全连接层需要统一大小,所以在最后的池化和全连接层之间加入了一个SPP层,用来统一数据尺寸。

3.2VFN

论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images
在视频处理过程中,通过使用Faster-RCNN检测衣服区域,使用KCF进行跟踪,得到连续的图像序列特征。
然后把序列特征通过IFN网络,把二级特征经过两层堆叠LSTM网络中,得到隐藏层特征h,作为后续使用的特征。

4相似度网络

相似度网路的实现类似于混合专家系统。
网络的输入是通过IFN得到的一个特征和VFN得到的多个隐层特征,是一对多的问题。作者通过实现树形结构,拆解子问题,每个结点训练不同的权值,最终加权得到最后的概率值。

4.1SNN

SNN计算him的相似性。SNN由两个全连接层组成。第一层(fc1)的输出是256维,第二层(fc2)的输出是1维。相似度得分的计算公式为:论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images

4.2FN

FN用来融合不同的FN层的score值,得到最终的score。低层的FN连接到高层的FN,形成树形结构。
论文中图示是一个两层的FN网络。
低层FN连接到SNN,高层FN连接到根节点。
低层FNij表示低层第i个FN连接到高层第j个FN。
首先给出低层FN的计算方式:
定义中间变量论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images
Vij是低层FN的权重,Xij是低层FN所连接到的SNN的fc1层输出。
那么低层FNij的输出gij论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images,对连接到同一个高层FNjFNij进行softmax归一化的权值。
同理,高层FN的计算方式如下:
定义中间变量:论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images
Vj是高层FN的权重,Xj是对应的几个SNN的fc1层输出average pooling所得到的一个向量。
高层FNj的输出为论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images,不解释。

5.学习算法

学习步骤分为两步,首先学习SNN层权重,当SNN层固定之后,再学习FN层。

5.1SNN

SNN层是二分类问题,类似于逻辑回归的训练方式。使用对数损失函数:
论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images

5.2FN

最终得分p(sg)的计算公式如下:
论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images
其中,gj表示顶层FNj的输出,gij表示低层FNij的输出,pi(y)表示SNNi的输出。通过对得到的相似度pi(y),在不同层的FN进行加权相加,得到最终的p(sg)
为了训练FN层的权重,首先给出对数似然函数
论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images
所要求解的就是使得似然函数最大化的参数。因为模型有隐含变量,所以可以用EM算法进行求解,参考
论文里给出的训练方式是梯度下降。
给出每个gate的后验概率:
论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images
gate的参数梯度为:
论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images

6.训练方式

论文阅读:Video2Shop : Exact Matching Clothes in Videos to online Shopping Images

相关文章: