【发布时间】:2014-09-14 11:10:17
【问题描述】:
在应用其余算法之前,是否可以使用均值居中或 z 分数应用归一化评级数据?
提前致谢
【问题讨论】:
在应用其余算法之前,是否可以使用均值居中或 z 分数应用归一化评级数据?
提前致谢
【问题讨论】:
您是在尝试预测收视率还是在尝试推荐产品以供消费?
很少有人真正使用推荐器来预测评分,他们通常会尝试以最佳方式对推荐进行排名,以便显示前几名。在这种情况下,使用log-likehood ratio 效果最好,它会忽略评分,因为它使用概率方法计算权重。
如果您的评分与好评评分混合在一起,则您需要明确哪些是好评评分,因为您只想推荐好东西。例如,如果您有一个 1-5 星评级系统,最好放弃所有 1-3 星评级,而只使用 4-5 星。这对某些人来说似乎违反直觉,但确实会产生更好的排名。如果您正在查看交叉验证离线测试,请确保使用平均平均精度之类的东西——您需要一个精度度量,因为它衡量 ranking,不要使用 RMSE,它衡量 rating 。
如果您确定要预测评分,您可以对每个人的评分进行标准化,以适应所有用户的相同规模,但在推荐器中不要使用 SIMILARITY_LOGLIKELIHOOD,请使用 SIMILARITY_COSINE,它不会忽略偏好权重。然后您可以测量 RMSE 以进行交叉验证。
【讨论】: