Manifold Learning(流形学习)

在高维空间里,距离该点很远的点很可能与这个点也是有关联的,因此我们可以把3-D的空间进行降维,那么我们就可以更方便地进行clustering或unsupervised learning 任务
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding

Locally Linear Embedding (LLE)(局部线性嵌入)

李宏毅老师课程:Unsupervised Learning:Neighbor Embedding
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding

Laplacian Eigenmaps(拉普拉斯特征图)

Review:在之前的semi-supervised learning中,如果两个点x1x^1x2x^2在高密度区域上是相近的,那它们的label y1y^1y2y^2很有可能是一样的
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding
我们也可以得出类似smoothness的式子,计算zi,zjz^i,z^j之间的smoothness
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding
那么我们现在的目标就是找到zi,zjz^i,z^j,来使S达到最小值,还需要有一些额外的constrains

现在我们对z加入一些constrains,如果降维后z的维数是M,那么我们就不希望取出来的这些点还生活在比M还低维的空间里面;我们现在希望把塞进高维空间的低维空间展开,我们就不希望展开之后的点在一个更低维的空间里面

T-distributed Stochastic Neighbor Embedding (t-SNE)

对于之前的LLE方法,类似的data之间是很close的,但不同类别之间的data却没有分开,是叠成一团的
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding
为了找到对应的zi,zjz^i,z^jP,QP,Q两个分布应该越接近越好
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding
可以使用gradient descent,有了L函数,再分别对zi,zjz^i,z^j求偏微分即可

但t-SNE要对所有的point之间都求similarity,因此计算量比较大,在数据量很大的情况下电脑的计算速度会非常慢

因此,对于很高的dimensions,通常先做降维(PCA),比如可以降维到50维,再使用t-SNE降到2维

通常我们使用t-SNE来对高维的数据进行可视化
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding
在上图中,红色曲线表示SNE,蓝色曲线表示t-SNE,纵轴表示distribution

如果本来就离得很近,那么经过t-SNE之间的距离还是很小;如果本来就离得很远,那么从原来的distribution拉到t-SNE之后,距离会更远;

到实际的例子中,如果本来是同一个类别的data,由于这些data之间的距离很近,不会收到t-SNE很大的影响;但如果是属于不同类别的data,距离是比较远的,t-SNE会放大这种距离

对于下图中的MNIST,先使用PCA进行降维,再进行可视化,就可以得到下图中的good visualization
李宏毅老师课程:Unsupervised Learning:Neighbor Embedding

本文图片来自李宏毅老师课程PPT,文字是对李宏毅老师上课内容的笔记或者原话复述,在此感谢李宏毅老师的教导。

相关文章:

  • 2021-08-01
  • 2021-06-02
  • 2021-11-20
  • 2021-07-12
  • 2021-06-22
  • 2021-07-12
  • 2021-11-14
  • 2021-08-01
猜你喜欢
  • 2022-01-19
  • 2021-04-12
  • 2021-12-15
  • 2021-09-05
  • 2021-09-04
  • 2022-01-17
  • 2021-09-26
相关资源
相似解决方案