【李宏毅机器学习笔记】1、回归问题(Regression)

【李宏毅机器学习笔记】2、error产生自哪里?

【李宏毅机器学习笔记】3、gradient descent

【李宏毅机器学习笔记】4、Classification

【李宏毅机器学习笔记】5、Logistic Regression

【李宏毅机器学习笔记】6、简短介绍Deep Learning

【李宏毅机器学习笔记】7、反向传播(Backpropagation)

【李宏毅机器学习笔记】8、Tips for Training DNN

【李宏毅机器学习笔记】9、Convolutional Neural Network(CNN)

【李宏毅机器学习笔记】10、Why deep?

【李宏毅机器学习笔记】11、 Semi-supervised

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

------------------------------------------------------------------------------------------------------

【李宏毅深度强化学习】视频地址:https://www.bilibili.com/video/av10590361?p=22

课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

-------------------------------------------------------------------------------------------------------

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

Unsupervised Learning 可以分为两类。

一类是有输入实例(现实的树),输出更抽象的东西,即化繁为简。

一类是输入一个code,然后输出具体的实例,即无中生有。

聚类(Clustering)

K-means

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

K-means做聚类,需要先人为确定要聚类成多少类。K代表多少类。

  1. 数据集X,里面N个unlabel的data 【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods
  2. 初始化每一个聚类的中心(随机从data里挑一些出来即可)
  3. 遍历所有data,计算每一个data和这些中心的距离。如果距离近的话则属于此中心所代表的类别。
  4. 更新中心,把所有属于 i 类的data加起来,取平均。
  5. 重复3、4步。

Hierarchical Agglomerative Clustering(HAC)

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

 如上图,由下往上看。

  1. 计算5个data两两之间的相似性,将比较像的data做平均,得到它们之间的上一层节点。重复这个过程。
  2. 人为地选择要切在哪里。比如切在红线,则代表前三个data和后两个data分为两类。如果且在蓝色则代表前两个data、第三个data、后两个data,总共分为三类。

Dimension Reduction

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

刚才做聚类时,是强制性的把某一个data归类于某一个class。这样时不准确的。因为一个data可能同时拥有多个class的特性,所以应该把它写成如图中vector一样。

这种从高维的vector(比如图像)转化成低维的vector,就叫做Dimension Reduction 。

做Dimension Reduction的好处

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

如上图,左边是data以螺旋状分布在3维空间里。但其实如右边的样子,以2维的空间就可以描述这些信息,这样就把简化了问题。

怎么做Dimension Reduction?

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

既然是做 Dimension Reduction ,那就要求输入 x 的维度比输出的 z 的维度要少。有两个方法可以做到这件事,是feature selection和PCA。

 feature selection

【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods

  feature selection的方法很简单:把data的分布列出来,如上图,可以看到data分散在x2的维度中,而没有在x1的维度,所以就可以把x1维去掉。

不足:这个方法只能对于比较简单的情况起作用,像右边data分布复杂些就处理不了

 

未完待续。。

相关文章: