无监督学习:邻居嵌入
Manifold Learning(流形学习)
在高维空间里,距离该点很远的点很可能与这个点也是有关联的,因此我们可以把3-D的空间进行降维,那么我们就可以更方便地进行clustering或unsupervised learning 任务
Locally Linear Embedding (LLE)(局部线性嵌入)
Laplacian Eigenmaps(拉普拉斯特征图)
Review:在之前的semi-supervised learning中,如果两个点和在高密度区域上是相近的,那它们的label 和很有可能是一样的
我们也可以得出类似smoothness的式子,计算之间的smoothness
那么我们现在的目标就是找到,来使S达到最小值,还需要有一些额外的constrains
现在我们对z加入一些constrains,如果降维后z的维数是M,那么我们就不希望取出来的这些点还生活在比M还低维的空间里面;我们现在希望把塞进高维空间的低维空间展开,我们就不希望展开之后的点在一个更低维的空间里面
T-distributed Stochastic Neighbor Embedding (t-SNE)
对于之前的LLE方法,类似的data之间是很close的,但不同类别之间的data却没有分开,是叠成一团的
为了找到对应的,两个分布应该越接近越好
可以使用gradient descent,有了L函数,再分别对求偏微分即可
但t-SNE要对所有的point之间都求similarity,因此计算量比较大,在数据量很大的情况下电脑的计算速度会非常慢
因此,对于很高的dimensions,通常先做降维(PCA),比如可以降维到50维,再使用t-SNE降到2维
通常我们使用t-SNE来对高维的数据进行可视化
在上图中,红色曲线表示SNE,蓝色曲线表示t-SNE,纵轴表示distribution
如果本来就离得很近,那么经过t-SNE之间的距离还是很小;如果本来就离得很远,那么从原来的distribution拉到t-SNE之后,距离会更远;
到实际的例子中,如果本来是同一个类别的data,由于这些data之间的距离很近,不会收到t-SNE很大的影响;但如果是属于不同类别的data,距离是比较远的,t-SNE会放大这种距离
对于下图中的MNIST,先使用PCA进行降维,再进行可视化,就可以得到下图中的good visualization
本文图片来自李宏毅老师课程PPT,文字是对李宏毅老师上课内容的笔记或者原话复述,在此感谢李宏毅老师的教导。