Python sklearn 中的训练集

【问题标题】：Training Set in Python sklearnPython sklearn 中的训练集
【发布时间】：2020-03-27 19:43:20
【问题描述】：

如果我的数据集在子组大小方面存在偏差，例如，如果我尝试预测“a”、“b”、“c”标签，但我的数据集有 1000 个“a”标签，500 个“b”标签和 250 个“c”标签，sklearn 是否有任何解决方法或者它会自动考虑到这一点？

【问题讨论】：

【解决方案1】：

Sklearn 提供了处理不平衡数据本身的功能，您必须查看可用的不同指标 here 并使用它来找到您的模型具有更高准确率的最佳指标。评分指标是可以帮助您处理不平衡数据集的参数。只需根据您的问题在训练模型时选择您的评分，这将大大有助于处理它。

在处理不平衡数据时，您始终可以对类。这个过程可以在数据预处理中完成。

有关处理不平衡数据的更多信息，您可以阅读here 和here

【讨论】：