【发布时间】:2017-02-28 20:26:57
【问题描述】:
我对这一切都很陌生,我对这个过程的逻辑有一点心理障碍。我正在尝试使用当前和已经流失客户的数据库来预测客户流失。到目前为止我有
1) 获取当前客户和已流失客户的完整客户数据库以及客户服务变量等用于预测。
2) 将数据集随机 70/30 分成训练和测试
3) 使用 R,我训练了一个随机森林模型来预测做出预测,然后使用混淆矩阵与实际状态进行比较。
4) 我已经使用测试数据运行了该模型,以检查识别流失者的准确性
我现在有点困惑。我现在想做的是获取我们所有当前的客户并预测哪些客户会流失。我是否做错了这一切,因为我需要预测的很多当前客户是否会在模型出现在训练集中时已经被模型看到?
我是否应该使用不属于我需要对其进行预测的数据集的一部分的训练和测试集?
非常感谢您的帮助。
【问题讨论】:
标签: r machine-learning random-forest