【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

【李宏毅机器学习笔记】10、Why deep？

------------------------------------------------------------------------------------------------------

【李宏毅深度强化学习】视频地址：https://www.bilibili.com/video/av10590361?p=22

-------------------------------------------------------------------------------------------------------

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

Unsupervised Learning 可以分为两类。

一类是有输入实例（现实的树），输出更抽象的东西，即化繁为简。

一类是输入一个code，然后输出具体的实例，即无中生有。

聚类（Clustering）

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

K-means做聚类，需要先人为确定要聚类成多少类。K代表多少类。

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

如上图，由下往上看。

计算5个data两两之间的相似性，将比较像的data做平均，得到它们之间的上一层节点。重复这个过程。
人为地选择要切在哪里。比如切在红线，则代表前三个data和后两个data分为两类。如果且在蓝色则代表前两个data、第三个data、后两个data，总共分为三类。

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

刚才做聚类时，是强制性的把某一个data归类于某一个class。这样时不准确的。因为一个data可能同时拥有多个class的特性，所以应该把它写成如图中vector一样。

这种从高维的vector（比如图像）转化成低维的vector，就叫做Dimension Reduction 。

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

如上图，左边是data以螺旋状分布在3维空间里。但其实如右边的样子，以2维的空间就可以描述这些信息，这样就把简化了问题。

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

既然是做 Dimension Reduction ，那就要求输入 x 的维度比输出的 z 的维度要少。有两个方法可以做到这件事，是feature selection和PCA。

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

feature selection的方法很简单：把data的分布列出来，如上图，可以看到data分散在x2的维度中，而没有在x1的维度，所以就可以把x1维去掉。

不足：这个方法只能对于比较简单的情况起作用，像右边data分布复杂些就处理不了

未完待续。。