k近邻法详解 - 爱码网

文章目录

KNN算法三要素

距离的度量
k 值的选择
分类决策规则

KＮＮ算法
KNN的实现

KD树的构造
kd树的搜索

k 近邻法(k-nearest neighbor k-NN) 是一种基本分类与回归方法。KNN模型的主要任务是基于距离度量，找出与被测样本距离最近的k个点。KNN的三个基本要素：k值的选择，距离度量以及分类决策规则。

KNN算法三要素

距离的度量

特征空间中的两个实例点的距离是两个实例点相似程度的反映。距离越近(数值越小)，相似度越大。

假设 $x_i,x_j \in \mathcal R^n$ ， $x_i,x_j$ 的 $L_p$ 距离定义为：
$L_p(x_i, x_j)=\left(\sum_{l=1}^{n}{\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^p}\right)^{\frac{1}{p}}$
p 取不同的值对应不同的距离：

（1） $p=1$ 对应曼哈顿距离

（2） $p=2$ 对应欧氏距离

（3） $p =\infty$ 时，各个坐标距离的最大值: $L_{\infty(x_i,x_j)}=\max \limits_{l}|x_i^{(l)}-x_j^{(l)}|$

k 值的选择

（1）如果选择较小的k值，相当于用较小的领域中的训练实例进行预测，预测结果对近邻的实例点非常敏感。如果近邻实例恰巧是噪声，预测就会出错。此时，训练误差小，泛化误差大。k值减小意味着整体模型变得复杂，容易发生过拟合。

（2）如果选择较大的k值，相当于用较大的领域中的训练实例进行预测，这时与输入实例较远的（不相似的）点会对预测起作用，使得预测发生错误。此时，训练误差大，泛化误差小。k值增大意味着模型变得简单。

（3）如果k值与样本数相同，无论输入实例是什么，他的输出是：训练实例中最多的类。模型过于简单，忽略了训练实例中的有用信息。

总结：实际应用中，k值一般选取一个较小的数值，通常采用交叉验证法来选取最优的k值。

分类决策规则

KNN分类预测时，采用多数表决法，根据其k个最近邻的训练实例的类别的众数作为最终结果。

KNN回归预测时，采用k个最近邻的训练实例的类别的均值作为最终的结果。

KＮＮ算法

以分类为例讲述KNN算法。

输入: $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ ;

其中， $x_i\in \mathcal{X}\sube{\mathbf{R}^n}, y_i\in\mathcal{Y}=\{c_1,c_2,\dots, c_k\}$ ，实例特征向量 $x$

输出: 实例x所属的 $y$

步骤:

根据指定的距离度量，在 $T$ 中查找 $x$ 的最近邻的 $k$ 个点，覆盖这 $k$ 个点的 $x$ 的邻域定义为 $N_k(x)$
在 $N_k(x)$ 中应用分类决策规则(多数表决)决定 $x$ 的类别 $y$ ：
$y=\arg\max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j), i=1,2,\dots,N, j=1,2,\dots,K$

$I$ 为指示函数，当 $y_i = c_j$ 时， $I=1$ 。否则 $I=0$ 。

KNN的实现

简单实现思路。线性扫描法：按照指定的距离计算方法，计算输入实例与每一个训练样本的距离，选出与输入实例距离最近的ｋ个样本。当训练集很大时，计算时间复杂度高，不可行。一般使用kd树来实现KNN模型。

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树，表示对k维空间的一一个划分(partition)。构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。

KD树的构造

算法 (构造平衡kd树)

输入: k维空间数据集 $T=\{x_1,x_2.\ldots,x_N\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)}\ldots,x_i^{(k)})^T,i=1,2\ldots ,N$

输出: kd树。

（1）开始:构造根结点，根结点对应于包含T的k维空间的超矩形区域。

选择 $x^{(1)}$ 为坐标轴，以T中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。

由根结点生成深度为1的左、右子结点:左子结点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子结点对应于坐标 $x^{(1)}$ 大于切分点的子区域。

将落在切分超平面上的实例点保存在根结点。

（2）重复:对深度为 $j$ 的结点，选择 $x^{(l)}$ 为切分的坐标轴， $l = j(mod )k+1$ ，以该结点的区域中所有实例的 $x^{(l)}$ 坐标的中位数为切分点，将该结点对应的超矩行区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(l)}$ 垂直的超平面实现。
由该结点生成深度为 $j+1$ 的左、右子结点:左子结点对应坐标 $x^{(l)}$ 小于切分点的子区域，右子结点对应坐标 $x^{(l)}$ 大于切分点的子区域。
将落在切分超平面上的实例点保存在该结点。

（3）直到两个子区域没有实例存在时停止。从而形成kd树的区域划分。

举个例子，假设有二维样本6个， $T=\{(2,3)，(5,4)，(9,6)，(4,7)，(8,1)，(7,2)\}，$ 构建kd树的具体步骤为：

(1) 找到划分特征。x维度方差6.97 > y维度方差 5.37。所以选择第一个维度进行划分。

(2) 确定划分点。x维度数字为：2，4，5，7，8，9。可以取中位数为：5或者7，这里取7。

划分结果：划分超平面会经过(7,2)且垂直于坐标轴X。由于划分超平面的确定，所以x<=7的样本 $\{(2,3),(5,4),(4,7)\}$ 属于左子空间，x>=7的样本 $\{(9,6)，(8,1)\}$ 属于右子空间。

(3) 对未用于父节点划分的特征重复上面的操作。即左矩形以 $x^{(2)}=4$ 分为两个子矩形，右矩形以 $x^{(2)}=6$ 分为两个子矩形。如此递归，得到下图的空间划分结果和kd树：

k近邻法详解

kd树的搜索

输入:已构造的kd树，目标点x;输出: x的最近邻。

(1)在kdl树中找出包含目标点x的叶结点:从根结点出发,递归地向下访问kd树。若目标点当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点。直到子结点为叶结点为止。

(2)以此叶结点为“当前最近点”。

(3)递归地向上回退，在每个结点进行以下操作:

(a)如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”。

(b)当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一子结点对应的区域是否有更近的点。具体地，检查另一子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。

如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子结点。接着，递归地进行最近邻搜索;

如果不相交，向上回退。

(4)当回退到根结点时，搜索结束。最后的“当前最近点”即为x的最近邻点。

如果实例点是随机分布的，kd 树搜索的平均计算复杂度是O(logN),这里N是训练实例数。kd树更适用于训练实例数远大于空间维数时的k近邻搜索。当空间维数接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描。

举例说明：下图是一个kd树，其根结点为A，子结点为B，C等。给定目标点S，要搜索其最近邻。

k近邻法详解

（1）找到包含目标点S的叶节点D。将D作为最近邻。真正的近邻在以点S为圆心SD长度为半径的圆O的内部。

（2）返回D的父节点B，在节点的另一子结点F区域内搜索，节点F与圆O不相交，不存在最近邻。

（3）返回B的父结点A，在A的另一子结点C内搜索最近邻。发现结点C与圆O相交，相交区域存在E点，点E比点D更近。成为新的最近邻。

（4）最后点E是点S的最近邻。

理解最近邻点的搜索方法后，如果我们要查找最近邻的K个点，只需要在第一轮先找到最近邻点，然后在第二轮忽略这个最近邻的点，查找次最近邻的点。重复这个过程，直到找到了K个近邻的点。