《机器学习》（周志华）笔记之降维（一）

西瓜书第十章降维，以kNN开篇，旨在寻找样本点的“近邻”，但当维度过高且样本稀疏时，一种自然地解决思路就是“降维”。人们观测到的数据样本虽是高维的，但与学习任务紧密相关的也许仅是一个低维分布，即高维空间中的一个低维嵌入。

kNN： 1、不同的k 2、不同的距离计算方式会导致分类结果有显著地不同

但其泛化错误率不超过贝叶斯最优分类器的错误率的两倍。简单的模型也许会有更好的效果

《机器学习》（周志华）笔记之降维（一）

线性降维：基于线性变换进行降维的方法，满足：《机器学习》（周志华）笔记之降维（一），不同之处是对低维子空间的性质有不同的要求，即对W施加不同的约束。

MDS（Multiple Dimentional Scaling多维缩放）：要求原始空间中样本之间的距离得以保持。

PCA（Principal Component Analysis主成分分析）：

同时满足：最近重构性：样本点到这个超平面的距离都很近

最大可分性：样本点在这个超平面上的投影尽可能分开

《机器学习》（周志华）笔记之降维（一）

舍弃部分特征值得特征向量优点：1、舍弃后使样本采样密度增大，这是降维的重要动机

2、当数据受到噪声影响时，最小的特征值对应的特征向量往往与噪声有关，将其舍弃能在一定程度上起到去燥的效果。

参考文献：《机器学习》周志华

《机器学习修炼心法》邬俊