【问题标题】:Avoiding overfitting with KDD CUP 1998 (python)使用 KDD CUP 1998 (python) 避免过度拟合
【发布时间】:2015-07-27 09:55:18
【问题描述】:

我正在使用 KDD CUP 1998 数据集,我有几个问题希望有人能帮助我回答。对于那些不熟悉这个数据集的人来说,它基本上是一个人的列表,以及他们是否向慈善机构捐款(包括他们捐赠的金额)。

问题 1: 数据集有大约 95,000 条记录,但其中只有 5% 属于 1 类(捐赠),其余属于 2 类。在训练时如何处理以避免过度拟合?

问题 2: 我想以两种方式解决这个问题。首先,确定谁会捐赠和谁不会捐赠(也许我会使用逻辑回归和随机森林分类器?)然后我想确定一个人会捐赠多少。关于我可以尝试哪些可能的方法的任何想法?

谢谢!

【问题讨论】:

    标签: python machine-learning


    【解决方案1】:

    1) https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm 任何现代 ML 库都会对类/样本 (sklearn for example) 进行加权,因此您可以在不频繁的类上比在频繁的类上更多地惩罚错误。或者您可以重新采样数据,使其变得更加平衡(在集合中多次重复不太频繁类的对象,或删除更频繁类的对象)。

    2) 只需在决策树上尝试不同的分类器,例如 SVM、RF、AdaBoost,然后选择一个在测试集上给出最佳结果的分类器。

    【讨论】:

      猜你喜欢
      • 2019-12-15
      • 2019-05-08
      • 2020-06-24
      • 2019-06-03
      • 2019-01-29
      • 2020-05-20
      • 2012-06-01
      • 2018-01-03
      • 2019-12-11
      相关资源
      最近更新 更多