【问题标题】:Apache Mahout Normalization Rating DatasetApache Mahout 标准化评级数据集
【发布时间】:2014-09-14 11:10:17
【问题描述】:

在应用其余算法之前,是否可以使用均值居中或 z 分数应用归一化评级数据?

提前致谢

【问题讨论】:

    标签: mahout mahout-recommender


    【解决方案1】:

    您是在尝试预测收视率还是在尝试推荐产品以供消费?

    很少有人真正使用推荐器来预测评分,他们通常会尝试以最佳方式对推荐进行排名,以便显示前几名。在这种情况下,使用log-likehood ratio 效果最好,它会忽略评分,因为它使用概率方法计算权重。

    如果您的评分与好评评分混合在一起,则您需要明确哪些是好评评分,因为您只想推荐好东西。例如,如果您有一个 1-5 星评级系统,最好放弃所有 1-3 星评级,而只使用 4-5 星。这对某些人来说似乎违反直觉,但确实会产生更好的排名。如果您正在查看交叉验证离线测试,请确保使用平均平均精度之类的东西——您需要一个精度度量,因为它衡量 ranking,不要使用 RMSE,它衡量 rating

    如果您确定要预测评分,您可以对每个人的评分进行标准化,以适应所有用户的相同规模,但在推荐器中不要使用 SIMILARITY_LOGLIKELIHOOD,请使用 SIMILARITY_COSINE,它不会忽略偏好权重。然后您可以测量 RMSE 以进行交叉验证。

    【讨论】:

    • 是的 pferrel,我尝试在我的研究论文中使用人物相似度来预测用户的评分,但在我应用人物相似度之前,我必须使用均值居中或 z- 标准化评分(​​数据模型)分数归一化。下一个问题是在评估预测准确性(例如,使用 MQE 或 RMSE)之前,我应该恢复评级(数据模型)吗?
    • 使用您将向用户显示的分数。如果您还原为向用户显示,请使用它。顺便说一句,我会比较有无归一化的 RMSE,看看你的归一化是否有助于使 RMSE 变得更好。
    猜你喜欢
    • 2014-12-23
    • 1970-01-01
    • 2019-10-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-12-11
    • 2012-01-22
    • 2012-07-07
    相关资源
    最近更新 更多