【问题标题】:Is testing collaborative filtering technique on randomly generated user-item rating matrix meaningful?在随机生成的用户项目评分矩阵上测试协同过滤技术有意义吗?
【发布时间】:2019-04-21 23:22:19
【问题描述】:

我知道一些数据集可用于运行协同过滤算法,例如基于用户或基于项目的过滤。但是,我需要在许多数据集上测试一种算法,以证明我提出的方法表现更好。我生成了值从 1 到 5 的随机用户项目评分矩阵。我将生成的矩阵视为基本事实。然后我删除矩阵中的一些评分,并使用我的算法预测缺失的评分。最后,我使用 RMSE 度量来比较地面实况矩阵和作为算法输出的矩阵。这种方法是否有意义?

【问题讨论】:

    标签: r recommendation-engine collaborative-filtering recommender-systems


    【解决方案1】:

    不是真的。

    • 如果每个项目在 [1-5] 中都是均匀随机的
      • 完美的估计器为 所有 个条目预测 3

    您缺少非均匀/真实世界的分布。每个推荐系统都建立在假设之上,或者它无法击败随机猜测。 (请记住,这不仅与评级的分布有关;还与哪些项目被评级有关 -> 大量理论研究显示了不同的假设:例如统一与其他事物;主要是在具有核范数的凸 MF与 max-norm 和 co。)

    最好选择那些可用的数据集,如果需要,在不破坏所有相关性的情况下对这些数据集进行二次抽样。例如。按某些属性过滤,例如 A:某些电影 1990。是的,这将改变基础分布,但听起来这就是你想要的。如果不是,您始终可以统一地进行子采样,但这更适用于一些泛化评估(小型与大型数据集)。

    【讨论】:

    • 你是对的。我是这么想的。谢谢。矩阵之间的 RMSE 有什么意义?
    猜你喜欢
    • 2012-09-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-21
    • 2016-06-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多