【发布时间】:2019-04-20 03:25:06
【问题描述】:
我得到了这个前景数据集:
ID Company_Sector Company_size DMU_Final Joining_Date Country
65656 Finance and Insurance 10 End User 2010-04-13 France
54535 Public Administration 1 End User 2004-09-22 France
和销售数据集:
ID linkedin_shared_connections online_activity did_buy Sale_Date
65656 11 65 1 2016-05-23
54535 13 100 1 2016-01-12
我想建立一个模型,为潜在客户表中的每个潜在客户分配成为客户的概率。该模型将预测潜在客户是否会购买,并返回概率。 Sales 表提供有关 2015 年销售额的信息。我的方法——“确实购买”列应该是模型中的一个标签,因为 1 代表 2016 年购买的潜在客户,0 表示没有销售。另一个有趣的专栏是在线活动,范围从 5 到 685。它越高 - 潜在客户对产品的活跃度越高。所以我正在尝试做随机森林模型,然后以某种方式将每个潜在客户的概率放在新的意图列中。在这种情况下,随机森林是一个有效的模型,还是我应该使用另一个模型。如何将模型结果应用到第一个表中每个潜在客户的新“意图”列中。
【问题讨论】:
-
欢迎来到 StackOverflow。请按照您创建此帐户时的建议阅读并遵循帮助文档中的发布指南。 On topic、how to ask 和 ... the perfect question 在此处申请。 StackOverflow 不是设计、编码、研究或教程资源。但是,如果您遵循您在网上找到的任何资源,进行诚实的编码尝试并遇到问题,那么您将有一个很好的示例可以发布。
-
请查看"Which site?"。
-
那么你的问题是什么?
-
如果随机森林在这种情况下是一种有效的模型,或者我应该使用另一个模型。如何将模型结果应用到第一个表中每个潜在客户的新“意图”列中。
标签: python pandas numpy scikit-learn data-mining