在随机生成的用户项目评分矩阵上测试协同过滤技术有意义吗？答案

【问题标题】：Is testing collaborative filtering technique on randomly generated user-item rating matrix meaningful?在随机生成的用户项目评分矩阵上测试协同过滤技术有意义吗？
【发布时间】：2019-04-21 23:22:19
【问题描述】：

我知道一些数据集可用于运行协同过滤算法，例如基于用户或基于项目的过滤。但是，我需要在许多数据集上测试一种算法，以证明我提出的方法表现更好。我生成了值从 1 到 5 的随机用户项目评分矩阵。我将生成的矩阵视为基本事实。然后我删除矩阵中的一些评分，并使用我的算法预测缺失的评分。最后，我使用 RMSE 度量来比较地面实况矩阵和作为算法输出的矩阵。这种方法是否有意义？

【问题讨论】：

标签： r recommendation-engine collaborative-filtering recommender-systems

【解决方案1】：

不是真的。

如果每个项目在 [1-5] 中都是均匀随机的
- 完美的估计器为所有个条目预测 3

您缺少非均匀/真实世界的分布。每个推荐系统都建立在假设之上，或者它无法击败随机猜测。（请记住，这不仅与评级的分布有关；还与哪些项目被评级有关 -> 大量理论研究显示了不同的假设：例如统一与其他事物；主要是在具有核范数的凸 MF与 max-norm 和 co。）

最好选择那些可用的数据集，如果需要，在不破坏所有相关性的情况下对这些数据集进行二次抽样。例如。按某些属性过滤，例如 A：某些电影 1990。是的，这将改变基础分布，但听起来这就是你想要的。如果不是，您始终可以统一地进行子采样，但这更适用于一些泛化评估（小型与大型数据集）。

【讨论】：

你是对的。我是这么想的。谢谢。矩阵之间的 RMSE 有什么意义？