使用 KDD CUP 1998 (python) 避免过度拟合答案

【问题标题】：Avoiding overfitting with KDD CUP 1998 (python)使用 KDD CUP 1998 (python) 避免过度拟合
【发布时间】：2015-07-27 09:55:18
【问题描述】：

我正在使用 KDD CUP 1998 数据集，我有几个问题希望有人能帮助我回答。对于那些不熟悉这个数据集的人来说，它基本上是一个人的列表，以及他们是否向慈善机构捐款（包括他们捐赠的金额）。

问题 1：数据集有大约 95,000 条记录，但其中只有 5% 属于 1 类（捐赠），其余属于 2 类。在训练时如何处理以避免过度拟合？

问题 2：我想以两种方式解决这个问题。首先，确定谁会捐赠和谁不会捐赠（也许我会使用逻辑回归和随机森林分类器？）然后我想确定一个人会捐赠多少。关于我可以尝试哪些可能的方法的任何想法？

谢谢！

【问题讨论】：

【解决方案1】：

1) https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm 任何现代 ML 库都会对类/样本 (sklearn for example) 进行加权，因此您可以在不频繁的类上比在频繁的类上更多地惩罚错误。或者您可以重新采样数据，使其变得更加平衡（在集合中多次重复不太频繁类的对象，或删除更频繁类的对象）。

2) 只需在决策树上尝试不同的分类器，例如 SVM、RF、AdaBoost，然后选择一个在测试集上给出最佳结果的分类器。

【讨论】：