【发布时间】:2018-12-28 06:37:12
【问题描述】:
我正在参加一个黑客马拉松,我们应该根据性别、城市、培训时间、经验、当前公司等特征来预测用户是否对工作感兴趣。
在训练集中,大约有 90% 的人对工作不感兴趣,而只有 10% 的人对工作感兴趣。 但是在他们发布的公共测试集中,这两个分类中的每一个都有 50%,我的验证准确度没有超过 55%,而训练准确度为 99%。
测试和训练数据都有缺失值,我正在使用 RBM 进行估算。
我的问题是:
验证准确率很差,是因为类别比例不平衡,还是因为错误地估算了缺失值?
【问题讨论】:
-
在开始训练之前,您是否平衡了训练集?
-
@TimH 我照原样喂它。 90% 不感兴趣,10% 感兴趣。如何平衡我的数据?
-
这可能是个问题,想象一下,如果您的分类器预测每个人都不感兴趣,它仍然会获得 90% 的准确度,因此仅靠准确度并不是一个好的性能指标
标签: machine-learning deep-learning data-science oversampling