k近邻算法

统计学习(李航)——K邻近法(Python)
k邻近法的三要素:距离度量、k值的选择和分类决策规则。
距离度量:
距离定义为

Lp(xi,xj)=(l=1nxi(l)xj(l)p)lp L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{l}{p}}
p=1时:曼哈顿距离,两个向量的各个分量(坐标)的距离的和。
p=2时:欧式距离
p为无穷时:它是两个向量的各个分量(坐标)的距离的最大值。
k值的选择:
k值小,k近邻模型更复杂;k值大,k近邻模型更简单。通常由交叉验证选择最优的k值。
分类决策规则:在最近的k个邻近点中,属于哪一类的点最多,就将预测为该类。
如果涵盖Nk(x)N_{k}(x)的区域的类别是cjc_{j},那么误分类率是
1kxi,Nk(x)I(yicj)=11kxiNk(x)I(yi=cj)\frac{1}{k} \sum_{x_{i}, N_{k}(x)} I\left(y_{i} \neq c_{j}\right)=1-\frac{1}{k} \sum_{x_{i} N_{k}(x)} I\left(y_{i}=c_{j}\right)

kd树:
kd树是一种存储数据的方法,对于每一个要预测的实例,都需要寻找和其特征向量距离最近的那些训练集中的实例,但是当特征向量维度很高时,这种搜索很耗时,这就需要一种特殊的数据结构,如kd树,不需要遍历训练集中的每一个实例。

代码:
统计学习(李航)——K邻近法(Python)
统计学习(李航)——K邻近法(Python)
统计学习(李航)——K邻近法(Python)

相关文章:

  • 2021-10-17
  • 2022-12-23
  • 2021-06-14
  • 2021-11-09
  • 2021-05-18
  • 2021-04-25
  • 2021-12-20
  • 2021-05-21
猜你喜欢
  • 2021-06-13
  • 2021-07-31
  • 2021-04-09
  • 2022-12-23
  • 2021-07-09
  • 2021-09-22
  • 2021-12-08
相关资源
相似解决方案