K近邻（KNN） - 爱码网

工作原理

K-Nearest Neighbor，KNN。是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个训练样本，然后基于这K个邻居的信息来进行预测。通常，在分类任务中可使用投票法，选择K个样本中出现最多的类别标记作为预测结果；在回归任务中使用平均法，将K个样本的实值输出标记的平均值作为预测结果；还可以基于距离远近进行加权平均或加权投票。

特点

knn有一个明显的不同之处，没有显式的训练过程，训练阶段仅仅把样本保存起来。

k不同时，预测结果会不一致。另一方面，采用不同的距离计算方式，找出的近邻也会有显著差别。

最近邻分类器虽简单，但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍。

在高维情形下出现的数据样本稀疏、距离计算困难等问题，是所有机器学习方法共同面临的严重障碍。