了解皮尔逊相关系数答案

【问题标题】：Understanding the Pearson Correlation Coefficient了解皮尔逊相关系数
【发布时间】：2011-09-10 06:28:03
【问题描述】：

作为生成Pearson Correlation Coefficient 的计算的一部分，将执行以下计算：

在第二个公式中：p_a,i 是用户 a 将给项目 i 的预测评分，n 是被比较的相似用户的数量，ru,i 是项目 i 的评分用户u。

如果用户u 没有评价这个项目，将使用什么值？我在这里误会了什么吗？

【问题讨论】：

【解决方案1】：

只有在两个用户都给电影评分的情况下计算结果才有意义。线性回归可以可视化为method of finding a straight line through a two-dimensional graph，其中一个变量绘制在 X 轴上，另一个变量绘制在 Y 轴上。每个评级组合都表示为欧几里得平面上的一个点 [u1_rating, u2_rating]。由于您无法绘制只有一维的点，因此您必须放弃这些情况。

【讨论】：

【解决方案2】：

根据链接，算法步骤 1 中的早期计算是针对一组项目，索引 1 到 m，其中 m 是共有项目的总数。

算法的第 3 步指定：“要找到特定用户对特定项目的评分预测，首先选择与当前用户具有最高加权相似度分数的用户数对相关项目进行评分。”

这些计算仅在不同用户的评分项目集的交集上执行。当用户未对项目进行评分时，将不会执行任何计算。

【讨论】：

所以这意味着选择具有最高加权相似性分数（邻居）的用户数量的任务必须重复 k 次，其中 k = DB 中的项目总数 - 评分数用户 u 的项目？