【发布时间】:2012-04-04 14:56:14
【问题描述】:
这个问题是关于 Apache Mahout 的推荐部分,它使用 Pearson 系数来测量用户之间的相似性。根据我的理解,这里是皮尔逊系数如何衡量用户之间的相似度。
假设 2 个用户对 5 个项目 a、b、c、d 和 e 评分。假设他们的评级是 a1, b1, c1, d1, e1 和 a2, b2, c2, d2, e2。现在,皮尔逊系数给出了考虑点 (a1, a2)、(b1, b2)、(c1, c2)、(d1, d2) 和 (e1, e2) 的最小二乘直线拟合的估计值。我知道这样做的主要目的(基于我在其他地方的阅读)是您想要表示在给定当前用户评分的情况下能够预测其他用户对任何对象的评分的准确性。现在,如果这些点位于一条直线上,则意味着您可以根据当前用户的评分预测其他人的评分。因此,系数将为 1。另一方面,如果点不在直线上,则最小二乘拟合以 -1 到 1 的比例表示,0 表示它们完全偏移并且存在完全没有关系,1/-1 非常合适。
现在,我的问题是为什么只有直线?为什么我们不能确定它们是否位于抛物线上,然后相应地计算类似的系数(关于抛物线的拟合程度)?为什么我们只检查直线拟合?
谢谢 阿布舍克S
【问题讨论】:
-
皮尔逊系数假设线性关系,就是这样。如果要对曲线进行建模,可以使用带有附加项的线性回归,类似于 $y ~ x + x^2 + x^3$。
标签: math statistics mahout pearson