【问题标题】:How to pre-process transactional data to predict probability to buy?如何预处理交易数据以预测购买概率?
【发布时间】:2017-12-19 02:34:52
【问题描述】:

我正在为一家百货公司开发一个模型,该模型使用以前购买的数据来预测客户今天购买的概率。为简单起见,假设我们有 3 类产品(A、B、C),我想使用客户在 2017 年第一季度、第二季度和第三季度的购买历史来预测 2017 年第四季度的购买概率。

我应该如何构建我的指标文件?

我的尝试:

我要预测的变量是生产集中的红色单元格。

请注意以下几点:

  • 由于我的客户群在这两年都是相同的,我使用一张客户去年表现的照片来预测他们在今年年底会做什么(这是未知的)。
  • 数据是按三个月分开的,一位同事认为这是不正确的,因为我无意中更重视将每一项分成 4 份的指标,而实际上每个类别应该只有一项。

替代方案:

我被建议的另一种方法是每个类别使用两个指标:例如'bought_in_category_A'和'days_since_bought_A'。对我来说,这看起来更简单,但是模型只能预测客户是否会购买 Y,而不是他们何时会购买 Y。此外,如果客户从未购买过 A,会发生什么?我不能使用 0,因为这意味着从未购买过的客户更接近几天前刚购买过的客户。

问题:

  1. 这种结构是否可行,或者您会以其他方式构建数据吗?
  2. 在这种情况下可以使用去年的信息吗?
  3. 可以将一个分类变量“拆分”成几个二元变量吗?这会影响赋予该变量的重要性吗?

【问题讨论】:

    标签: python r pandas scikit-learn prediction


    【解决方案1】:

    很遗憾,您需要一种不同的方法来实现预测分析。

    • 例如,这里的产品属性未知(颜色、味道、 大小,季节性,....)
    • 没有关于客户的信息 (年龄、性别、居住区域等...)
    • 您需要更多“事务性” 信息,(何时,为什么 - 他们是如何购买等......)
    • 什么是产品的“生命周期”?跟时尚有关系吗?
    • 你在哪个分支? (零售、散装、金融、服装......)
    • 同时您是否进行过任何活动?这将如何衡量?

    我将首先(如果适用)专注于每个季度的类别关系和行为: 例如当 n1 减小时 n2 减小 当 q1 低于 q2 或 q1/2016 vs q2/2017。

    我认为您首先应该与业务分析师一起解决这个问题,以便找出正确的“规则”和方法。

    我认为您无法通过这些通用假设数据得到具体答案。 通常你需要至少 3-5 年的数据来做一些下降预测分析,当然这取决于你的产品的性质。 希望,这有点帮助。

    ;-)

    -mwk

    【讨论】:

    • 感谢您的回答,我确实掌握了所有这些信息:自 2013 年以来的产品属性(颜色、尺寸等)、人口统计信息(年龄、性别、位置)等。这过于简单化了使其易于理解。我更担心季节性如何影响我构建信息的方式,但你确实回答了我的问题,说我可以将信息分成季度。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-05-23
    • 2019-09-16
    • 1970-01-01
    • 1970-01-01
    • 2013-05-22
    • 1970-01-01
    相关资源
    最近更新 更多