KNN算法实现答案

【问题标题】：KNN algorithm implementationKNN算法实现
【发布时间】：2020-05-18 10:39:14
【问题描述】：

我正在创建自己的 KNN 实现。尽管一切似乎都正常，但与 sklearn 的 KNN 相比，我得到的准确度相当差（例如，在几组上测试了 0.68 对 0.96）。我还使用 5 折交叉验证。我的代码中最重要的部分如下：

def knn(X, y, Z, k):
    mod_lst = []
    for i in range(Z.shape[0]):
        distance = []
        for j in range(X.shape[0]):
            distance.append(np.linalg.norm(X.iloc[j] - Z.iloc[i]))
        mod_lst.append(modde(distance,y,k))
    return mod_lst

def modde(ret,y,k):
    '''sorting distances in ascending order'''
    dic = {i: ret[i] for i in range(0, len(ret))}
    dic1 = {r: v for r, v in sorted(dic.items(), key=lambda item: item[1])}
    ind = [dic1.keys()]

    a = list(dic1.keys())
    '''sorting y (labels) in ascending order'''
    d = [x for _, x in sorted(zip(a,y))]

    d = d[:k]
    d = list(map(int, d))
    modw = statistics.mode(d)

    return modw

地点：

k = 5
X - training set (data, a nxm matrix of points in R^m)
y - training set (labels, 1xn array of zeros, ones, etc)
Z - testing set

为什么我的结果与 scikit-learn 实施结果不同？

【问题讨论】：

这很难回答，除非我们知道数据集是什么并且可以在上面测试你的代码。您能否提供一个完整的示例，其中包含我们可以下载并在本地运行的训练和测试数据？

标签： python numpy scikit-learn knn

【解决方案1】：

很难回答你的问题。首先，Scikit-learn 的实现有运行时优化，并且包含一个精心的实现。

KNN（分类器）的实现是here。我建议您阅读实现，因为启用了新的 github 读取代码功能，并且很容易遵循库的实现。

例如，检查here 他们如何定义距离图。你会注意到他们的代码和你的有点不同。

此外，scikit-learn 使用 scipy 库来计算一些指标，例如，点的距离建立在 scipy pdist() function 之上。

【讨论】：