下采样后的 f1 或准确度评分 - 分类，支持向量机 - Python答案

【问题标题】：f1 or accuracy scoring after downsampling - classification, svm - Python下采样后的 f1 或准确度评分 - 分类，支持向量机 - Python
【发布时间】：2018-11-05 04:42:35
【问题描述】：

我有一个包含 15 列和 3000 行的数据集来训练一个二元分类模型。 y (1:2) 存在不平衡。两种结果 (0,1) 同等重要。

下采样后（因为参数class_weight=balance不好用），我用了参数scoring=“f1”，因为我读到这是ROC曲线旁边最好的性能衡量指标。

问题是：我是否仍将下采样后的数据视为不平衡并因此应用 f1 还是可以恢复正常精度？

f1 = 2 * (精度 * 召回率) / (精度 + 召回率)

提前干杯！ :)

【问题讨论】：

欢迎来到 SO！您应该发布一个最小、完整和可验证的示例：stackoverflow.com/help/mcve

标签： python classification

【解决方案1】：

如果您重新平衡了数据，那么它就不再是不平衡的了，我认为使用准确性作为成功指标没有问题。

准确性可能会在非常倾斜的数据集中误导您，但由于它不再倾斜，它应该可以工作。

【讨论】：

感谢您的快速回复！我从中得出的结论是，我首先检查不平衡是否可以补救。如果是这种情况，我将下采样/上采样并使用精度作为衡量标准。否则我留下数据并使用 f1/ROC。如果使用 class_weight = 'balanced' 我会将这种情况视为我已经重新平衡了数据。