Apache Mahout 中皮尔逊系数背后的动机是什么答案

【问题标题】：What is the motivation behind Pearson's coeficient in Apache MahoutApache Mahout 中皮尔逊系数背后的动机是什么
【发布时间】：2012-04-04 14:56:14
【问题描述】：

这个问题是关于 Apache Mahout 的推荐部分，它使用 Pearson 系数来测量用户之间的相似性。根据我的理解，这里是皮尔逊系数如何衡量用户之间的相似度。

假设 2 个用户对 5 个项目 a、b、c、d 和 e 评分。假设他们的评级是 a1, b1, c1, d1, e1 和 a2, b2, c2, d2, e2。现在，皮尔逊系数给出了考虑点 (a1, a2)、(b1, b2)、(c1, c2)、(d1, d2) 和 (e1, e2) 的最小二乘直线拟合的估计值。我知道这样做的主要目的（基于我在其他地方的阅读）是您想要表示在给定当前用户评分的情况下能够预测其他用户对任何对象的评分的准确性。现在，如果这些点位于一条直线上，则意味着您可以根据当前用户的评分预测其他人的评分。因此，系数将为 1。另一方面，如果点不在直线上，则最小二乘拟合以 -1 到 1 的比例表示，0 表示它们完全偏移并且存在完全没有关系，1/-1 非常合适。

现在，我的问题是为什么只有直线？为什么我们不能确定它们是否位于抛物线上，然后相应地计算类似的系数（关于抛物线的拟合程度）？为什么我们只检查直线拟合？

谢谢阿布舍克S

【问题讨论】：

皮尔逊系数假设线性关系，就是这样。如果要对曲线进行建模，可以使用带有附加项的线性回归，类似于 $y ~ x + x^2 + x^3$。

标签： math statistics mahout pearson

【解决方案1】：

这就是皮尔逊相关系数的定义方式。

这是一种可能的相似性指标，它确实衡量了两组偏好按比例移动的程度。如果您认为此假设适用于您的数据集，那么它将是一个合理的指标。如果不是，您将使用另一个指标。

当然，您可以实现一个相似度度量，以其他方式定义相似度。

但是，在实践中，为什么另一种关系在这里有意义？相似性应该是对称的，两组偏好不能各自与对方的平方成正比。我认为常见的线性关系是合理的。

当然，还有很多其他的相似性指标，可以说是更好的指标，它们与评估这样的关系无关，比如对数似然比。

【讨论】：