【发布时间】:2017-12-19 02:34:52
【问题描述】:
我正在为一家百货公司开发一个模型,该模型使用以前购买的数据来预测客户今天购买的概率。为简单起见,假设我们有 3 类产品(A、B、C),我想使用客户在 2017 年第一季度、第二季度和第三季度的购买历史来预测 2017 年第四季度的购买概率。
我应该如何构建我的指标文件?
我的尝试:
我要预测的变量是生产集中的红色单元格。
请注意以下几点:
- 由于我的客户群在这两年都是相同的,我使用一张客户去年表现的照片来预测他们在今年年底会做什么(这是未知的)。
- 数据是按三个月分开的,一位同事认为这是不正确的,因为我无意中更重视将每一项分成 4 份的指标,而实际上每个类别应该只有一项。
替代方案:
我被建议的另一种方法是每个类别使用两个指标:例如'bought_in_category_A'和'days_since_bought_A'。对我来说,这看起来更简单,但是模型只能预测客户是否会购买 Y,而不是他们何时会购买 Y。此外,如果客户从未购买过 A,会发生什么?我不能使用 0,因为这意味着从未购买过的客户更接近几天前刚购买过的客户。
问题:
- 这种结构是否可行,或者您会以其他方式构建数据吗?
- 在这种情况下可以使用去年的信息吗?
- 可以将一个分类变量“拆分”成几个二元变量吗?这会影响赋予该变量的重要性吗?
【问题讨论】:
标签: python r pandas scikit-learn prediction