评估推荐人 - 在 x 种情况下无法推荐

【问题标题】：Evaluating recommenders - unable to recommend in x cases评估推荐人 - 在 x 种情况下无法推荐
【发布时间】：2013-06-17 20:24:32
【问题描述】：

我正在更详细地探索 Mahout in Action 中的一些代码示例。我建立了一个小型测试，用于计算应用于我的数据的各种算法的 RMS。

当然，多个参数会影响 RMS，但我不理解运行评估时生成的“无法在...情况下推荐”消息。

查看 StatsCallable.java，这是在评估器遇到 NaN 响应时生成的；训练集中的数据或用户偏好可能没有足够的数据来提供推荐。

似乎 RMS 分数不受大量“无法推荐”案例的影响。这个假设正确吗？我是否应该不仅根据 RMS 评估我的算法，还要评估“无法推荐”案例与我的整体训练集的比率？

如果有任何反馈，我将不胜感激。

【问题讨论】：

标签： mahout

【解决方案1】：

是的，这基本上意味着根本没有数据可以作为估算的依据。这通常是数据稀疏的症状。这种情况应该很少见，并且只发生在数据非常少或与其他人断开连接的用户身上。

我个人认为这没什么大不了的，除非它是一个非常重要的百分比（20%+？）如果你根本无法为许多用户生成任何记录，我会更担心。

【讨论】：

肖恩 - 我想回复并感谢您的回复。我最终进行了一系列测试，发现对于我的数据集，Pearson 表现最差，而 Log Likelihood 是最好的基于用户的推荐。一般来说，我的数据中有 10% 属于“无法推荐”类别，但对于 Pearson，它更像是 20%。无论哪种方式，为了比较苹果与苹果，我最终将无法推荐的数据纳入我的 RMS 分数，以公平地比较所有推荐者。
皮尔逊相关性在极端情况下是未定义的，例如当两个人仅在一项中重叠时。在稀疏数据上，这并不少见。在这些情况下至少定义了对数似然。（这是一个更好的默认值。）结果并不让我感到惊讶。