基于隐式反馈的推荐 - Spark Mllib答案

【问题标题】：Recommendation based on implicit feedback - Spark Mlib基于隐式反馈的推荐 - Spark Mllib
【发布时间】：2016-03-31 03:01:48
【问题描述】：

我从用户那里获得了关于他们与不同产品互动的隐含反馈。以下是数据集的结构：user_id、product_category、event_date、view_count、purchase_count

根据这些数据，我试图预测用户对产品类别的亲和力的分数。 MLIB 隐式形式需要格式为 Rating(user: Int, product: Int, rating: Double) 的输入数据集。但是如何包含 view_count 和 purchase_count 呢？

如果不能使用 MLLIB，我可以使用其他方法吗？我的产品类别有限（只有 8 个产品类别）。在那种情况下，我可以使用 8 个逻辑回归模型来预测亲和力吗？

谢谢

【问题讨论】：

【解决方案1】：

您所描述的内容称为multinomial logistic regression，用于multiclass classification。这是典型的 logistic regression 的概括，它只有 2 个结果（二进制）。

您似乎正在尝试应用 collaborative filtering 模型，正如您所指出的那样，该模型在这种情况下不起作用。

查看 Spark ML/MLlib 文档以获取 multinomial logistic regression。

您可以将每个输入（view_count 和 purchase_count）视为单独的特征（输入数据），以使用现有的已知数据（包括结果）来训练模型。

当您对新数据进行评分/预测时，模型将为每个可能的结果返回一个概率：8，在这种情况下......每个产品类别为 1。然后选择概率最高的类别。

以下是一些相关的 Spark 文档链接：

Spark 的逻辑回归编程指南

当前 spark.mllib 逻辑回归 API

新的 spark.ml 逻辑回归 API

（注意：这目前仅支持二元逻辑回归，但您应该在可用时迁移到此）

【讨论】：

感谢您的回复。使用单一逻辑回归模型的一个挑战是 - 结果不是相互排斥的。例如，将因变量定义为在接下来的 7 天内购买的产品类别，并且客户将购买多个类别。在这种情况下我可以使用一种方法吗？谢谢

【解决方案2】：

您是在尝试预测亲和力得分还是继续基于亲和力进行推荐？例如，您可能有购买与访问的比率，将其保留为评级（此处为亲和力评级）并执行推荐

【讨论】：