【发布时间】:2017-03-20 16:35:17
【问题描述】:
在大约 5000 万个样本的平衡训练数据上使用 scikit-learn(50% 一类,50% 另一类,区间 (0,1) 中的 8 个连续特征),到目前为止我能够尝试的所有分类器(Linear/LogisticRegression, LinearSVC, RandomForestClassifier, ...) 表现出奇怪的行为:
在训练数据上进行测试时,假阳性的百分比远低于假阴性的百分比 (fnr)。当手动校正截距以提高误报率 (fpr) 时,准确率实际上会大大提高。
为什么分类算法找不到接近最优的截距(我猜或多或少会在 fpr=fnr)?
【问题讨论】:
-
我也有类似的问题,没有足够的 fnr 或 tnr。
标签: optimization scikit-learn classification evaluation false-positive