【发布时间】:2019-11-14 13:42:14
【问题描述】:
我正在玩一些 scikit-learn,并希望重现执行网格搜索的一个特定超参数组合的交叉验证分数。
对于网格搜索,我使用了GridSearchCV 类,为了重现一个特定超参数组合的结果,我使用了具有完全相同拆分和分类器设置的cross_validate 函数。
我的问题是我没有得到预期的分数结果,据我了解,这应该与执行相同的计算以获得两种方法的分数完全相同。
通过修复训练数据上使用的拆分,我确保从脚本中排除任何随机源。
在下面的代码 sn-p 中,给出了所述问题的示例。
import numpy as np
from sklearn.model_selection import cross_validate, StratifiedKFold, GridSearchCV
from sklearn.svm import NuSVC
np.random.seed(2018)
# generate random training features
X = np.random.random((100, 10))
# class labels
y = np.random.randint(2, size=100)
clf = NuSVC(nu=0.4, gamma='auto')
# Compute score for one parameter combination
grid = GridSearchCV(clf,
cv=StratifiedKFold(n_splits=10, random_state=2018),
param_grid={'nu': [0.4]},
scoring=['f1_macro'],
refit=False)
grid.fit(X, y)
print(grid.cv_results_['mean_test_f1_macro'][0])
# Recompute score for exact same input
result = cross_validate(clf,
X,
y,
cv=StratifiedKFold(n_splits=10, random_state=2018),
scoring=['f1_macro'])
print(result['test_f1_macro'].mean())
执行给定的sn-p会得到输出:
0.38414468864468865
0.3848840048840049
我本来希望这些分数完全相同,因为它们是在相同的拆分上计算的,使用相同的训练数据和相同的分类器。
【问题讨论】:
标签: python machine-learning scikit-learn cross-validation grid-search