李宏毅老师课程：Unsupervised Learning:Neighbor Embedding

无监督学习：邻居嵌入

Manifold Learning（流形学习）
Locally Linear Embedding (LLE)（局部线性嵌入）
Laplacian Eigenmaps（拉普拉斯特征图）
T-distributed Stochastic Neighbor Embedding (t-SNE)

Manifold Learning（流形学习）

在高维空间里，距离该点很远的点很可能与这个点也是有关联的，因此我们可以把3-D的空间进行降维，那么我们就可以更方便地进行clustering或unsupervised learning 任务
李宏毅老师课程：Unsupervised Learning:Neighbor Embedding

Locally Linear Embedding (LLE)（局部线性嵌入）

李宏毅老师课程：Unsupervised Learning:Neighbor Embedding

Laplacian Eigenmaps（拉普拉斯特征图）

Review：在之前的semi-supervised learning中，如果两个点 $x^1$ 和 $x^2$ 在高密度区域上是相近的，那它们的label $y^1$ 和 $y^2$ 很有可能是一样的
李宏毅老师课程：Unsupervised Learning:Neighbor Embedding
我们也可以得出类似smoothness的式子，计算 $z^i,z^j$ 之间的smoothness

那么我们现在的目标就是找到 $z^i,z^j$ ，来使S达到最小值，还需要有一些额外的constrains

现在我们对z加入一些constrains，如果降维后z的维数是M，那么我们就不希望取出来的这些点还生活在比M还低维的空间里面；我们现在希望把塞进高维空间的低维空间展开，我们就不希望展开之后的点在一个更低维的空间里面

T-distributed Stochastic Neighbor Embedding (t-SNE)

对于之前的LLE方法，类似的data之间是很close的，但不同类别之间的data却没有分开，是叠成一团的
李宏毅老师课程：Unsupervised Learning:Neighbor Embedding
为了找到对应的 $z^i,z^j$ ， $P,Q$ 两个分布应该越接近越好

可以使用gradient descent，有了L函数，再分别对 $z^i,z^j$ 求偏微分即可

但t-SNE要对所有的point之间都求similarity，因此计算量比较大，在数据量很大的情况下电脑的计算速度会非常慢

因此，对于很高的dimensions，通常先做降维（PCA），比如可以降维到50维，再使用t-SNE降到2维

通常我们使用t-SNE来对高维的数据进行可视化
李宏毅老师课程：Unsupervised Learning:Neighbor Embedding
在上图中，红色曲线表示SNE，蓝色曲线表示t-SNE，纵轴表示distribution

如果本来就离得很近，那么经过t-SNE之间的距离还是很小；如果本来就离得很远，那么从原来的distribution拉到t-SNE之后，距离会更远；

到实际的例子中，如果本来是同一个类别的data，由于这些data之间的距离很近，不会收到t-SNE很大的影响；但如果是属于不同类别的data，距离是比较远的，t-SNE会放大这种距离

对于下图中的MNIST，先使用PCA进行降维，再进行可视化，就可以得到下图中的good visualization
李宏毅老师课程：Unsupervised Learning:Neighbor Embedding

本文图片来自李宏毅老师课程PPT，文字是对李宏毅老师上课内容的笔记或者原话复述，在此感谢李宏毅老师的教导。