【发布时间】:2016-12-25 09:05:03
【问题描述】:
我在 Google 上进行了搜索,并看到了一些有关此错误的 StackOverflow 帖子。他们不是我的案子。
我使用 keras 训练一个简单的神经网络,并对分割后的测试数据集进行一些预测。但是使用roc_auc_score计算AUC时,出现如下错误:
"ValueError: Only one class present in y_true. ROC AUC score is not defined in that case."。
我检查了目标标签分布,它们高度不平衡。一些标签(总共 29 个标签)只有 1 个实例。因此,他们很可能在测试标签中没有正面标签实例。所以sklearn的roc_auc_score函数只报告了一类问题。这是合理的。
但我很好奇,当我使用sklearn的cross_val_score函数时,它可以正确处理AUC计算。
my_metric = 'roc_auc'
scores = cross_validation.cross_val_score(myestimator, data,
labels, cv=5,scoring=my_metric)
不知道cross_val_score发生了什么,是不是因为cross_val_score使用了分层交叉验证数据拆分?
更新
我继续进行一些挖掘,但仍然找不到背后的区别。我看到 cross_val_score 调用check_scoring(estimator, scoring=None, allow_none=False) 返回一个得分手,而check_scoring 将调用get_scorer(scoring) 将返回scorer=SCORERS[scoring]
而SCORERS['roc_auc']是roc_auc_scorer;roc_auc_scorer 由
roc_auc_scorer = make_scorer(roc_auc_score, greater_is_better=True,
needs_threshold=True)
所以,它仍在使用 roc_auc_score 函数。我不明白为什么 cross_val_score 与直接调用 roc_auc_score 的行为不同。
【问题讨论】:
-
什么是
my_metric? -
@maxymoo 我使用字符串
roc_auc,它是一个有效值。 -
如果您进行交叉验证并且您的一种标签太少,则某些折叠可能没有任何此类标签。尝试减少折叠次数并确保使用分层抽样。
-
我遇到了完全相同的问题,我认为问题实际上与 cross_validation 拆分有关! ''' > /usr/local/lib/python2.7/dist-packages/sklearn/model_selection/_validation.py(131)cross_val_score() 129 130 cv = check_cv(cv, y, classifier=is_classifier(estimator)) - -> 131 cv_iter = list(cv.split(X, y, groups)) 产生以下 cv_iter: ipdb> np.count_nonzero(y[cv_iter[0][1],1]) 2 ipdb> np.count_nonzero(y [cv_iter[1][1],1]) 2 ipdb> np.count_nonzero(y[cv_iter[2][1],1]) 0 没有负数 例如第三次拆分
标签: scikit-learn