Unsupervised deep embedding for clustering analysis

偶然发现这篇发在ICML2016的论文,它主要的关注点在于unsupervised deep embedding。据我所了解的,Unsupervised 学习是deep learning的一个难点,毕竟deep network这种非常复杂的非线性映射,暂时的未知因素太多,可能在原来的domain有clustering的特征数据经过nonlinear映射之后,就变得不再clustering了。

这篇论文受t-SNE的启发,优化的目标是两个分布之间的KL距离。假设deep embedding之后的两个点【CV论文阅读】Unsupervised deep embedding for clustering analysis 和【CV论文阅读】Unsupervised deep embedding for clustering analysis ,其中【CV论文阅读】Unsupervised deep embedding for clustering analysis是第【CV论文阅读】Unsupervised deep embedding for clustering analysis个类的centroid。于是,similarity 的measure为

 【CV论文阅读】Unsupervised deep embedding for clustering analysis

也可以认为是【CV论文阅读】Unsupervised deep embedding for clustering analysis 属于【CV论文阅读】Unsupervised deep embedding for clustering analysis 的概率。

假设此时一个目标分布【CV论文阅读】Unsupervised deep embedding for clustering analysis,则 【CV论文阅读】Unsupervised deep embedding for clustering analysis。优化的过程和普通的BP算法一样,(1)通过BP算法优化deep network的参数,即计算【CV论文阅读】Unsupervised deep embedding for clustering analysis。(2)通过计算梯度【CV论文阅读】Unsupervised deep embedding for clustering analysis来调整cluster的centroid,但是否这类centroid的调整也需要乘上一个学习率呢?

此外,一个重点的问题是潜在目标分布的构造。Paper里给出了三个标准,我觉得这三个标准确实挺有意义的:(1)对预测效果可以strengthen(2)对于一些高概率被标注某个cluster的点,给予更多的权重(3)归一化每个点对于每个centroid用于计算loss函数时候的贡献,避免一些大的cluster扭曲了整个feature space。构造如下,

 【CV论文阅读】Unsupervised deep embedding for clustering analysis

其中,【CV论文阅读】Unsupervised deep embedding for clustering analysis。对以上三个标准说一说自己的理解,不一定准确。(1)对于第一点,对于某个明显更靠近【CV论文阅读】Unsupervised deep embedding for clustering analysis类的point,它比其他point离得除【CV论文阅读】Unsupervised deep embedding for clustering analysis类以外更远,这个点的【CV论文阅读】Unsupervised deep embedding for clustering analysis也更高,而且【CV论文阅读】Unsupervised deep embedding for clustering analysis也可能会更高(2)平方项的应用使得小的更加小了,即emphasis更小。同时,当【CV论文阅读】Unsupervised deep embedding for clustering analysis较高,在【CV论文阅读】Unsupervised deep embedding for clustering analysis 的所有点中, 【CV论文阅读】Unsupervised deep embedding for clustering analysis也会有相对高的值。(3)对于某些大的cluster,可能总和【CV论文阅读】Unsupervised deep embedding for clustering analysis更大,反而最终【CV论文阅读】Unsupervised deep embedding for clustering analysis更小,而对于小的cluster,使得【CV论文阅读】Unsupervised deep embedding for clustering analysis更大。最终把一个点push到另一个小cluster。

直觉上说,概率分布【CV论文阅读】Unsupervised deep embedding for clustering analysis的初始化的正确性很大程度影响的算法最终的结果,首先因为这不是一个真实的分布,而deep network没有一个很好的初始化很难在另一个domain 保持cluster的结构。而section 5.1 的结果显示,对于high confidence的点,sample也变得更加canonical,如图越高confidence越明显是“5”的字样,而对于梯度的贡献也越来越大,即说明初始化概率分布【CV论文阅读】Unsupervised deep embedding for clustering analysis也是接近正确的。

 【CV论文阅读】Unsupervised deep embedding for clustering analysis

网络的初始化和SAE(栈autoencoder)一样,采用greedy training的方式训练每一层,然后再微调整个网络。而初始化cluster的选择,则通过在embedding上perform k means clustering 算法得到。

 

相关文章:

  • 2022-12-23
  • 2021-10-22
  • 2021-04-13
  • 2022-12-23
  • 2022-01-21
  • 2021-11-15
  • 2021-12-04
猜你喜欢
  • 2022-01-12
  • 2021-08-01
  • 2021-10-09
  • 2021-12-22
  • 2021-12-06
  • 2021-12-02
  • 2022-03-03
相关资源
相似解决方案