西瓜书第十章降维,以kNN开篇,旨在寻找样本点的“近邻”,但当维度过高且样本稀疏时,一种自然地解决思路就是“降维”。人们观测到的数据样本虽是高维的,但与学习任务紧密相关的也许仅是一个低维分布,即高维空间中的一个低维嵌入。
kNN: 1、不同的k 2、不同的距离计算方式 会导致分类结果有显著地不同
但其泛化错误率不超过贝叶斯最优分类器的错误率的两倍。简单的模型也许会有更好的效果
线性降维:基于线性变换进行降维的方法,满足: ,不同之处是对低维子空间的性质有不同的要求,即对W施加不同的约束。
MDS(Multiple Dimentional Scaling多维缩放):要求原始空间中样本之间的距离得以保持。
PCA(Principal Component Analysis主成分分析):
同时满足:最近重构性:样本点到这个超平面的距离都很近
最大可分性:样本点在这个超平面上的投影尽可能分开
舍弃部分特征值得特征向量优点:1、舍弃后使样本采样密度增大,这是降维的重要动机
2、当数据受到噪声影响时,最小的特征值对应的特征向量往往与噪声有关, 将其舍弃能在一定程度上起到去燥的效果。
参考文献:《机器学习》周志华
《机器学习修炼心法》邬俊