【问题标题】:Scikit learn wrong predictions with SVCScikit 使用 SVC 学习错误的预测
【发布时间】:2016-02-14 10:00:51
【问题描述】:

我正在尝试使用径向内核使用 SVM 预测 MNIST (http://pjreddie.com/projects/mnist-in-csv/) 数据集。我想用几个例子(例如 1000 个)进行训练并预测更多。问题是,每当我预测时,预测都是恒定的除非测试集的索引与训练集的索引一致。也就是说,假设我使用训练示例中的示例 1:1000 进行训练。然后,对于我的测试集的 1:1000,预测是正确的(即 SVM 尽力而为),但是对于其余部分,我得到了相同的输出。但是,如果我使用示例 2001:3000 进行训练,则只有与测试集中那些行相对应的测试示例被正确标记(即不具有相同的常数)。我完全不知所措,我认为存在某种错误,因为完全相同的代码在 LinearSVC 上工作得很好,尽管显然该方法的准确性较低。

首先,我使用 501:1000 的训练数据示例进行训练:

# dat_train/test are pandas DFs corresponding to both MNIST datasets
dat_train = pd.read_csv('data/mnist_train.csv', header=None)
dat_test = pd.read_csv('data/mnist_train.csv', header=None)

svm = SVC(C=10.0)
idx = range(1000)
#idx = np.random.choice(range(len(dat_train)), size=1000, replace=False)
X_train = dat_train.iloc[idx,1:].reset_index(drop=True).as_matrix()
y_train = dat_train.iloc[idx,0].reset_index(drop=True).as_matrix()
X_test = dat_test.reset_index(drop=True).as_matrix()[:,1:]
y_test = dat_test.reset_index(drop=True).as_matrix()[:,0]
svm.fit(X=X_train[501:1000,:], y=y_train[501:1000])

在这里你可以看到大约一半的预测是错误的

y_pred = svm.predict(X_test[:1000,:])
confusion_matrix(y_test[:1000], y_pred)

全错(即常量)

y_pred = svm.predict(X_test[:500,:])
confusion_matrix(y_test[:500], y_pred)

这是我希望看到的所有测试数据

y_pred = svm.predict(X_test[501:1000,:])
confusion_matrix(y_test[501:1000], y_pred)

您可以使用 LinearSVC 检查以上所有内容是否正确!

【问题讨论】:

    标签: python scikit-learn svm svc


    【解决方案1】:

    默认内核是 RBF,在这种情况下gamma 很重要。如果未提供gamma,则默认为auto,即1/n_features。您最好运行网格搜索以找到最佳参数。这里我只是说明给定合适的参数结果是正常的。

    In [120]: svm = SVC(C=1, gamma=0.0000001)
    
    In [121]: svm.fit(X=X_train[501:1000,:], y=y_train[501:1000])
    Out[121]:
    SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
      decision_function_shape=None, degree=3, gamma=1e-07, kernel='rbf',
      max_iter=-1, probability=False, random_state=None, shrinking=True,
      tol=0.001, verbose=False)
    
    In [122]: y_pred = svm.predict(X_test[:1000,:])
    
    In [123]: confusion_matrix(y_test[:1000], y_pred)
    Out[123]:
    array([[ 71,   0,   2,   0,   2,   9,   1,   0,   0,   0],
           [  0, 123,   0,   0,   0,   1,   1,   0,   1,   0],
           [  2,   5,  91,   1,   1,   1,   3,   7,   5,   0],
           [  0,   1,   4,  48,   0,  40,   1,   5,   7,   1],
           [  0,   0,   0,   0,  88,   2,   3,   2,   0,  15],
           [  1,   1,   1,   0,   2,  77,   0,   3,   1,   1],
           [  3,   0,   3,   0,   5,   4,  72,   0,   0,   0],
           [  0,   2,   3,   0,   3,   0,   1,  88,   1,   1],
           [  2,   0,   1,   2,   3,   9,   1,   4,  63,   4],
           [  0,   1,   0,   0,  16,   3,   0,  11,   1,  62]])
    

    【讨论】:

      【解决方案2】:

      为 SVC 找到好的参数本身就是一门艺术。网格搜索可能会有所帮助,更好地工作一些population based training like in this article - 我最近尝试过。如果让它同时运行,它的结果比 GridSearch 更好。如果让它运行到准确度相同,它会更快。

      它还有助于制作图形:设 x 和 y 轴为 C 和 gamma,并将预测分数绘制为颜色。通常,您会在两条线的交汇处找到一种具有最佳训练效果的 V 形。同时这个点的 C-Values 也很低,这是可取的,因为 C 决定了 SVC 的运行时间:高 C 使得运行时间很长。

      【讨论】:

        猜你喜欢
        • 2013-12-05
        • 2017-08-19
        • 2014-12-06
        • 2014-02-02
        • 2015-03-01
        • 1970-01-01
        • 2014-03-15
        • 2016-10-01
        • 2019-02-28
        相关资源
        最近更新 更多