秒懂机器学习---k临近算法（KNN）

一、总结

一句话总结：

弄懂原理，然后要运行实例，然后多解决问题，然后想出优化，分析优缺点，才算真的懂

1、KNN（K-Nearest Neighbor）算法的工作原理是什么？

取特征最相似数据分类标签：输入没有标签的新数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签

存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k近邻算法中k的出处，通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。

2、KNN（K-Nearest Neighbor）算法是监督学习中的还是非监督学习中的算法？

监督学习：KNN的训练样本集中每个数据都存在标签

3、KNN（K-Nearest Neighbor）算法训练时间开销为多大？

为0：KNN没有显示的训练过程，它在训练阶段只是把数据保存下来

KNN没有显示的训练过程，它是“懒惰学习”的代表，它在训练阶段只是把数据保存下来，训练时间开销为0，等收到测试样本后进行处理。

4、KNN做机器学习的实例？

根据打斗镜头、接吻镜头对电影是武打片还是爱情片进行分类

首先计算未知电影与样本集中其他电影的距离（比如这里使用曼哈顿距离）
找k个距离最近的电影：那么来看排序的前3个电影的类别，爱情片，爱情片，动作片，下面来进行投票，这部未知的电影爱情片2票，动作片1票，那么我们就认为这部电影属于爱情片。

5、KNN算法优缺点是什么？

精度高，对异常值不敏感、无数据输入假定：优点

计算复杂度高、空间复杂度高：缺点

6、KNN算法的实现步骤？

（1）计算距离

（2）排序选择距离最小的k个点

二、机器学习之KNN算法

转自或参考：机器学习之KNN算法
https://www.cnblogs.com/erbaodabao0611/p/7588840.html

1 KNN算法

1.1 KNN算法简介

　　KNN（K-Nearest Neighbor）工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k近邻算法中k的出处，通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。

　　说明：KNN没有显示的训练过程，它是“懒惰学习”的代表，它在训练阶段只是把数据保存下来，训练时间开销为0，等收到测试样本后进行处理。

　　举例：以电影分类作为例子，电影题材可分为爱情片，动作片等，那么爱情片有哪些特征？动作片有哪些特征呢？也就是说给定一部电影，怎么进行分类？这里假定将电影分为爱情片和动作片两类，如果一部电影中接吻镜头很多，打斗镜头较少，显然是属于爱情片，反之为动作片。有人曾根据电影中打斗动作和接吻动作数量进行评估，数据如下：

电影名称	打斗镜头	接吻镜头	电影类别
Califoria Man	3	104	爱情片
Beautigul Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Amped II	98	2	动作片

　　给定一部电影数据（18，90）打斗镜头18个，接吻镜头90个，如何知道它是什么类型的呢？KNN是这样做的，首先计算未知电影与样本集中其他电影的距离（这里使用曼哈顿距离），数据如下：

电影名称	与未知分类电影的距离
Califoria Man	20.5
Beautigul Woman	19.2
Kevin Longblade	115.3
Amped II	118.9

　　现在我们按照距离的递增顺序排序，可以找到k个距离最近的电影，加入k=3,那么来看排序的前3个电影的类别，爱情片，爱情片，动作片，下面来进行投票，这部未知的电影爱情片2票，动作片1票，那么我们就认为这部电影属于爱情片。

1.2 KNN算法优缺点

　　优点：精度高，对异常值不敏感、无数据输入假定

　　缺点：计算复杂度高、空间复杂度高

1.3 KNN算法python代码实现

　　实现步骤：

　　　　（1）计算距离

　　　　（2）选择距离最小的k个点

　　　　（3）排序

　　Python 3代码：

 1 import numpy as np
 2 import operator
 3 
 4 def classify(intX,dataSet,labels,k):
 5     '''
 6     KNN算法
 7     '''
 8     #numpy中shape[0]返回数组的行数，shape[1]返回列数
 9     dataSetSize = dataSet.shape[0]
10     #将intX在横向重复dataSetSize次，纵向重复1次
11     #例如intX=([1,2])--->([[1,2],[1,2],[1,2],[1,2]])便于后面计算
12     diffMat = np.tile(intX,(dataSetSize,1))-dataSet
13     #二维特征相减后乘方
14     sqdifMax = diffMat**2
15     #计算距离
16     seqDistances = sqdifMax.sum(axis=1)
17     distances = seqDistances**0.5
18     print ("distances:",distances)
19     #返回distance中元素从小到大排序后的索引
20     sortDistance = distances.argsort()
21     print ("sortDistance:",sortDistance)
22     classCount = {}
23     for i in range(k):
24         #取出前k个元素的类别
25         voteLabel = labels[sortDistance[i]]
26         print ("第%d个voteLabel=%s",i,voteLabel)
27         classCount[voteLabel] = classCount.get(voteLabel,0)+1
28     #dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
29     #计算类别次数
30 
31     #key=operator.itemgetter(1)根据字典的值进行排序
32     #key=operator.itemgetter(0)根据字典的键进行排序
33     #reverse降序排序字典
34     sortedClassCount = sorted(classCount.items(),key = operator.itemgetter(1),reverse = True)
35     #结果sortedClassCount = [('动作片', 2), ('爱情片', 1)]
36     print ("sortedClassCount:",sortedClassCount)
37     return sortedClassCount[0][0]

View Code

一、总结

一句话总结：

弄懂原理，然后要运行实例，然后多解决问题，然后想出优化，分析优缺点，才算真的懂

1、KNN（K-Nearest Neighbor）算法的工作原理是什么？

取特征最相似数据分类标签：输入没有标签的新数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签

2、KNN（K-Nearest Neighbor）算法是监督学习中的还是非监督学习中的算法？

监督学习：KNN的训练样本集中每个数据都存在标签

3、KNN（K-Nearest Neighbor）算法 训练时间开销为多大？

为0：KNN没有显示的训练过程，它在训练阶段只是把数据保存下来

4、KNN做机器学习的实例？

根据打斗镜头、接吻镜头对电影是武打片还是爱情片进行分类

5、KNN算法优缺点是什么？

精度高，对异常值不敏感、无数据输入假定：优点

计算复杂度高、空间复杂度高：缺点

6、KNN算法的实现步骤？

（1）计算距离

（2）排序选择距离最小的k个点

二、机器学习之KNN算法

3、KNN（K-Nearest Neighbor）算法训练时间开销为多大？