【李宏毅机器学习笔记】5、Logistic Regression
【李宏毅机器学习笔记】6、简短介绍Deep Learning
【李宏毅机器学习笔记】7、反向传播(Backpropagation)
【李宏毅机器学习笔记】8、Tips for Training DNN
【李宏毅机器学习笔记】9、Convolutional Neural Network(CNN)
【李宏毅机器学习笔记】10、Why deep?
【李宏毅机器学习笔记】11、 Semi-supervised
【李宏毅机器学习笔记】 12、Unsupervised Learning - Linear Methods
------------------------------------------------------------------------------------------------------
【李宏毅深度强化学习】视频地址:https://www.bilibili.com/video/av10590361?p=22
课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html
-------------------------------------------------------------------------------------------------------
Unsupervised Learning 可以分为两类。
一类是有输入实例(现实的树),输出更抽象的东西,即化繁为简。
一类是输入一个code,然后输出具体的实例,即无中生有。
聚类(Clustering)
K-means
K-means做聚类,需要先人为确定要聚类成多少类。K代表多少类。
- 数据集X,里面N个unlabel的data
- 初始化每一个聚类的中心(随机从data里挑一些出来即可)
- 遍历所有data,计算每一个data和这些中心的距离。如果距离近的话则属于此中心所代表的类别。
- 更新中心,把所有属于 i 类的data加起来,取平均。
- 重复3、4步。
Hierarchical Agglomerative Clustering(HAC)
如上图,由下往上看。
- 计算5个data两两之间的相似性,将比较像的data做平均,得到它们之间的上一层节点。重复这个过程。
- 人为地选择要切在哪里。比如切在红线,则代表前三个data和后两个data分为两类。如果且在蓝色则代表前两个data、第三个data、后两个data,总共分为三类。
Dimension Reduction
刚才做聚类时,是强制性的把某一个data归类于某一个class。这样时不准确的。因为一个data可能同时拥有多个class的特性,所以应该把它写成如图中vector一样。
这种从高维的vector(比如图像)转化成低维的vector,就叫做Dimension Reduction 。
做Dimension Reduction的好处
如上图,左边是data以螺旋状分布在3维空间里。但其实如右边的样子,以2维的空间就可以描述这些信息,这样就把简化了问题。
怎么做Dimension Reduction?
既然是做 Dimension Reduction ,那就要求输入 x 的维度比输出的 z 的维度要少。有两个方法可以做到这件事,是feature selection和PCA。
feature selection
feature selection的方法很简单:把data的分布列出来,如上图,可以看到data分散在x2的维度中,而没有在x1的维度,所以就可以把x1维去掉。
不足:这个方法只能对于比较简单的情况起作用,像右边data分布复杂些就处理不了
未完待续。。