无监督学习介绍
监督学习、半监督学习、无监督学习
监督学习中的样本 中的 是已知的,所以监督学习算法可以在训练集数据中充分使用数据的信息
半监督学习的样本 中只有R个样本的 是已知,U个样本的 未知,且通常U远大于R
无监督学习的样 中的 都是未知的
我们把无监督学习分为两大类:
- 化繁为简:有很多种输入,进行抽象化处理,只有输入没有输出。
- 无中生有:随机给一个输入,自动画一张图,只有输出没有输入。
化繁为简主要通过聚类(Clustering)或者是维数约减(Dimension Reduction)实现,使复杂变简单,化繁为简。
聚类
K均值聚类
- 将样本 聚合成 个类
- 初始化类中心
- 重复下面的操作
-利用 将样本分为 个类
-利用分好的 个类中的样本重新计算每一个类的
凝聚层级聚类(HAC)
假设有5个样本,计算两两之间的相似度,将最相似的两个样本聚合在一起(比如第一个和第二个),再将剩下的4个聚合在一起,以此类推。
然后再选择一个阈值,据此来确定到底分成多少类,例如蓝色的那条线就将这五个样本分成了三个类。
如果说K均值算法的问题是不好却确定分为几类,那么HAC的问题在于不知将分类门槛划在哪一层
分布式表示
直接按照特征的分布来选取有分布的特征。
Dimension Reduction(降维)
有时候 3D 图像可以降维简化到 2D 图像
那么我们如何进行降维操作呢,就是需要找一个函数模型。
- Feature selection特征选择:比如在左图二维坐标系中,我们发现 轴对样本点影响不大,那么就可以把它拿掉。
- PCA 主成分分析: 输出 输入,找到这个向量W。
![]()
主成分分析(PCA)—最常用的线性降维方法
通过某种线性投影,将高维的数据映射到低维的空间中表示,即把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。并期望在所投影的维度上数据的方差最大,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。以此使用较少的数据维度,同时保留住较多的原数据点的特性。
现在举一个从二维数据降到一维的情况, 表示 在 向量上的投影,我们希望找到 使得样本投影在这一向量上的点的分布方差最大,如图,我们选择 Large variance 这一向量。
如果是高维的情况,我们的思路是一样的,也是找到相互垂直的 ,使得 分布方差最大