【问题标题】:Recommendation based on implicit feedback - Spark Mlib基于隐式反馈的推荐 - Spark Mllib
【发布时间】:2016-03-31 03:01:48
【问题描述】:

我从用户那里获得了关于他们与不同产品互动的隐含反馈。以下是数据集的结构:user_id、product_category、event_date、view_count、purchase_count

根据这些数据,我试图预测用户对产品类别的亲和力的分数。 MLIB 隐式形式需要格式为 Rating(user: Int, product: Int, rating: Double) 的输入数据集。但是如何包含 view_count 和 purchase_count 呢?

如果不能使用 MLLIB,我可以使用其他方法吗?我的产品类别有限(只有 8 个产品类别)。在那种情况下,我可以使用 8 个逻辑回归模型来预测亲和力吗?

谢谢

【问题讨论】:

    标签: apache-spark logistic-regression apache-spark-mllib collaborative-filtering


    【解决方案1】:

    您所描述的内容称为multinomial logistic regression,用于multiclass classification。这是典型的 logistic regression 的概括,它只有 2 个结果(二进制)。

    您似乎正在尝试应用 collaborative filtering 模型,正如您所指出的那样,该模型在这种情况下不起作用。

    查看 Spark ML/MLlib 文档以获取 multinomial logistic regression

    您可以将每个输入(view_count 和 purchase_count)视为单独的特征(输入数据),以使用现有的已知数据(包括结果)来训练模型。

    当您对新数据进行评分/预测时,模型将为每个可能的结果返回一个概率:8,在这种情况下......每个产品类别为 1。然后选择概率最高的类别。

    以下是一些相关的 Spark 文档链接:

    Spark 的逻辑回归编程指南

    http://spark.apache.org/docs/latest/mllib-linear-methods.html#logistic-regression

    当前 spark.mllib 逻辑回归 API

    http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.classification.LogisticRegressionModel

    http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.evaluation.MulticlassMetrics

    新的 spark.ml 逻辑回归 API

    (注意:这目前仅支持二元逻辑回归,但您应该在可用时迁移到此)

    http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.classification.LogisticRegression

    http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

    【讨论】:

    • 感谢您的回复。使用单一逻辑回归模型的一个挑战是 - 结果不是相互排斥的。例如,将因变量定义为在接下来的 7 天内购买的产品类别,并且客户将购买多个类别。在这种情况下我可以使用一种方法吗?谢谢
    【解决方案2】:

    您是在尝试预测亲和力得分还是继续基于亲和力进行推荐?例如,您可能有购买与访问的比率,将其保留为评级(此处为亲和力评级)并执行推荐

    【讨论】:

    • 我正在尝试预测每个产品类别的亲和力得分。我现在不需要推荐。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-03-09
    • 1970-01-01
    • 2017-07-09
    • 2015-02-16
    • 1970-01-01
    • 2017-11-09
    相关资源
    最近更新 更多