【发布时间】:2019-08-12 18:08:45
【问题描述】:
我有一个非常不平衡的数据集,我正在执行分类任务。因此,我尝试了所有算法,即(决策树、朴素贝叶斯、逻辑回归),对于每个算法,我都在 scikit learn 中遇到了一个名为 sample_weights 的参数。
假设我的数据集中有大约 10 万个正数据点和 2 万个负数据点。
即正标签的0.83 % 和负标签的0.16 %
从文档中,我假设此参数用于通过为具有较少数据点的类(即不平衡数据集)赋予更多权重来解决此类问题。
class_weight : dict 或‘balanced’,默认值:无
与 {class_label: weight} 形式的类关联的权重。如果 没有给出,所有的类都应该有一个权重。为了 多输出问题,可以在同一个中提供一个dicts列表 顺序为 y 的列。
我的问题是,对于上述不平衡数据集示例,我的理想 class_weights 应该是什么,这样我才能避免过采样或欠采样等技术?
【问题讨论】:
标签: python machine-learning scikit-learn