【问题标题】:Evaluating recommenders - unable to recommend in x cases评估推荐人 - 在 x 种情况下无法推荐
【发布时间】:2013-06-17 20:24:32
【问题描述】:

我正在更详细地探索 Mahout in Action 中的一些代码示例。我建立了一个小型测试,用于计算应用于我的数据的各种算法的 RMS。

当然,多个参数会影响 RMS,但我不理解运行评估时生成的“无法在...情况下推荐”消息。

查看 StatsCallable.java,这是在评估器遇到 NaN 响应时生成的;训练集中的数据或用户偏好可能没有足够的数据来提供推荐。

似乎 RMS 分数不受大量“无法推荐”案例的影响。这个假设正确吗?我是否应该不仅根据 RMS 评估我的算法,还要评估“无法推荐”案例与我的整体训练集的比率?

如果有任何反馈,我将不胜感激。

【问题讨论】:

    标签: mahout


    【解决方案1】:

    是的,这基本上意味着根本没有数据可以作为估算的依据。这通常是数据稀疏的症状。这种情况应该很少见,并且只发生在数据非常少或与其他人断开连接的用户身上。

    我个人认为这没什么大不了的,除非它是一个非常重要的百分比(20%+?)如果你根本无法为许多用户生成任何记录,我会更担心。

    【讨论】:

    • 肖恩 - 我想回复并感谢您的回复。我最终进行了一系列测试,发现对于我的数据集,Pearson 表现最差,而 Log Likelihood 是最好的基于用户的推荐。一般来说,我的数据中有 10% 属于“无法推荐”类别,但对于 Pearson,它更像是 20%。无论哪种方式,为了比较苹果与苹果,我最终将无法推荐的数据纳入我的 RMS 分数,以公平地比较所有推荐者。
    • 皮尔逊相关性在极端情况下是未定义的,例如当两个人仅在一项中重叠时。在稀疏数据上,这并不少见。在这些情况下至少定义了对数似然。 (这是一个更好的默认值。)结果并不让我感到惊讶。
    猜你喜欢
    • 2023-03-31
    • 1970-01-01
    • 2018-01-09
    • 2021-05-28
    • 2018-05-20
    • 1970-01-01
    • 2017-03-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多