如何在 Scikit 中自定义 GridSearchCV 的指标学习调整特定类？答案

【问题标题】：How to Customize Metric for GridSearchCV in Scikit Learn to tune for specific class?如何在 Scikit 中自定义 GridSearchCV 的指标学习调整特定类？
【发布时间】：2020-02-22 19:30:51
【问题描述】：

我在 ML 中有一个用例，其中我有 2 个类，0 和 1 用于给定文本。

Class-0: 可以承受一些错误分类
Class-1: 非常重要，不能承受任何错误分类

这两个类别的样本存在巨大的不平衡， class-0 大约 30000，class-1 只有 1000

在进行训练-测试拆分时，我根据标签对拆分进行分层，这样，每个标签类保持 70% 训练和 30% 测试的比例。

我想调整参数，以改进 class-1 的 Precision 或 Recall。我尝试使用“f1_macro”、“precision”、“recall”作为单独的指标，并将所有指标组合起来使用 GridSearchCV 进行调整，但由于大多数样本为 Class-0，因此它的帮助较小。

我正在探索减少 0 类数据的更安全的方法，不过，我们只能减少很小的程度，无论如何，即使没有调整或使用任何参数，0 类的 f1 分数始终高于 98%。

所以我关心的只是调整class-1。

您能否建议，也许是一个自定义的可调用指标，使其仅关注 Class-1 的 Precision、Recall 或 F1-Score？

我正在使用 scikit-learn 最新的稳定版本。

这里有类似的问题，作者正在尝试在Keras 中使用Neural Networks (MLP) 调整Class-1 的F1 分数
有人建议尝试自定义指标，只是没有提到如何。
可以在这里回答 Scikit-Learn 的人，也可以回答下面的 Keras 链接。 Hyperparameter tuning in Keras (MLP) via RandomizedSearchCV

【问题讨论】：

标签： machine-learning scikit-learn hyperparameters gridsearchcv imbalanced-data

【解决方案1】：

使用class_weight='balanced' 会有所帮助。

我在 Scikit-Learn 的官方文档页面中引用了这些文章。

了解参数class_weights 的工作原理：
https://scikit-learn.org/stable/modules/svm.html#unbalanced-problems https://stackoverflow.com/a/30982811/3149277

了解class_weights使用哪些参数：
https://scikit-learn.org/stable/modules/svm.html#tips-on-practical-use
How does the class_weight parameter in scikit-learn work?

尽管由于时间限制，我没有费心定义自定义函数，因为这似乎接近我的预期。

【讨论】：