Apache Mahout 标准化评级数据集答案

【问题标题】：Apache Mahout Normalization Rating DatasetApache Mahout 标准化评级数据集
【发布时间】：2014-09-14 11:10:17
【问题描述】：

在应用其余算法之前，是否可以使用均值居中或 z 分数应用归一化评级数据？

提前致谢

【问题讨论】：

【解决方案1】：

您是在尝试预测收视率还是在尝试推荐产品以供消费？

很少有人真正使用推荐器来预测评分，他们通常会尝试以最佳方式对推荐进行排名，以便显示前几名。在这种情况下，使用log-likehood ratio 效果最好，它会忽略评分，因为它使用概率方法计算权重。

如果您的评分与好评评分混合在一起，则您需要明确哪些是好评评分，因为您只想推荐好东西。例如，如果您有一个 1-5 星评级系统，最好放弃所有 1-3 星评级，而只使用 4-5 星。这对某些人来说似乎违反直觉，但确实会产生更好的排名。如果您正在查看交叉验证离线测试，请确保使用平均平均精度之类的东西——您需要一个精度度量，因为它衡量 ranking，不要使用 RMSE，它衡量 rating 。

如果您确定要预测评分，您可以对每个人的评分进行标准化，以适应所有用户的相同规模，但在推荐器中不要使用 SIMILARITY_LOGLIKELIHOOD，请使用 SIMILARITY_COSINE，它不会忽略偏好权重。然后您可以测量 RMSE 以进行交叉验证。

【讨论】：

是的 pferrel，我尝试在我的研究论文中使用人物相似度来预测用户的评分，但在我应用人物相似度之前，我必须使用均值居中或 z- 标准化评分（数据模型）分数归一化。下一个问题是在评估预测准确性（例如，使用 MQE 或 RMSE）之前，我应该恢复评级（数据模型）吗？
使用您将向用户显示的分数。如果您还原为向用户显示，请使用它。顺便说一句，我会比较有无归一化的 RMSE，看看你的归一化是否有助于使 RMSE 变得更好。