【发布时间】:2018-07-18 07:38:07
【问题描述】:
有很多关于如何解决类不平衡问题的帖子和资源,即对少数类进行过度采样或对多数类进行欠采样。
我也明白,使用准确性来评估模型在不平衡问题上的表现是错误的。
但是,我并没有找到很多资源首先讨论为什么 ML 模型会在类不平衡问题中失败。仅仅是因为损失函数通常是所有数据点的总和,所以模型会倾向于更强调多数类数据而不是少数类数据?
其次,在实际应用中,例如欺诈检测或点击预测(发生类别不平衡的情况),为什么通过训练集的过(欠)采样来改变分布是一件好事?难道我们不希望分类器反映真实的分布(本质上是不平衡的)吗?假设我有一个经过训练的逻辑回归模型来预测欺诈,假设欺诈率为 2%。对欺诈事件进行过采样本质上告诉模型欺诈率不是 2%,而是 50%(比如说)。这是好事吗?
总结一下。两个问题:
为什么 ML 模型会在类不平衡设置中失败?是不是因为损失函数通常是由单个数据点的损失之和组成的?
为什么过(欠)采样(从根本上改变了模型看待问题的方式)是一种好方法?为什么不让模型真实地反映类的分布呢?
【问题讨论】:
标签: machine-learning statistics classification