【发布时间】:2015-07-27 09:55:18
【问题描述】:
我正在使用 KDD CUP 1998 数据集,我有几个问题希望有人能帮助我回答。对于那些不熟悉这个数据集的人来说,它基本上是一个人的列表,以及他们是否向慈善机构捐款(包括他们捐赠的金额)。
问题 1: 数据集有大约 95,000 条记录,但其中只有 5% 属于 1 类(捐赠),其余属于 2 类。在训练时如何处理以避免过度拟合?
问题 2: 我想以两种方式解决这个问题。首先,确定谁会捐赠和谁不会捐赠(也许我会使用逻辑回归和随机森林分类器?)然后我想确定一个人会捐赠多少。关于我可以尝试哪些可能的方法的任何想法?
谢谢!
【问题讨论】: