西瓜书第十章降维,以kNN开篇,旨在寻找样本点的“近邻”,但当维度过高且样本稀疏时,一种自然地解决思路就是“降维”。人们观测到的数据样本虽是高维的,但与学习任务紧密相关的也许仅是一个低维分布,即高维空间中的一个低维嵌入

kNN:     1、不同的k      2、不同的距离计算方式       会导致分类结果有显著地不同

但其泛化错误率不超过贝叶斯最优分类器的错误率的两倍。简单的模型也许会有更好的效果

《机器学习》(周志华)笔记之降维(一)

线性降维:基于线性变换进行降维的方法,满足:  《机器学习》(周志华)笔记之降维(一),不同之处是对低维子空间的性质有不同的要求,即对W施加不同的约束。

MDS(Multiple Dimentional Scaling多维缩放):要求原始空间中样本之间的距离得以保持。

PCA(Principal Component Analysis主成分分析)

同时满足:最近重构性:样本点到这个超平面的距离都很近

最大可分性:样本点在这个超平面上的投影尽可能分开

《机器学习》(周志华)笔记之降维(一)

《机器学习》(周志华)笔记之降维(一)

舍弃部分特征值得特征向量优点:1、舍弃后使样本采样密度增大,这是降维的重要动机

   2、当数据受到噪声影响时,最小的特征值对应的特征向量往往与噪声有关, 将其舍弃能在一定程度上起到去燥的效果。


参考文献:《机器学习》周志华

《机器学习修炼心法》邬俊

相关文章: