【问题标题】:Pearson correlation coefficent皮尔逊相关系数
【发布时间】:2021-08-29 17:36:22
【问题描述】:

我的这个问题与 Matlab 没有密切关系,但与之相关: 我正在寻找如何以一些重要的方式填充矩阵[[a,b,c],[d,e,f]],以便尽可能多的地方

corrcoef([a,b,c],[d,e,f])

为零。在大多数情况下,我的尝试会产生 NaN 结果。

【问题讨论】:

  • 您是否想要绝对零相关性,或者您是否正在寻找方法来生成两个向量,以使它们的相关性平均接近于零?两个向量的长度都像您的示例中那样为 3 还是大小可变?您是否意识到“尽可能多的地方”恰好意味着 2,因为对角线元素的相关性必然为 1?
  • @sg1234 我想要绝对零相关性。长度 3 可以让我想象 defined 相关性 0 如何适用于更长的向量。 $n\geq 3$ 是从练习 4.6.9 here 获得的最小长度。是的,我意识到在 3x3 的各个 9 个地方的 6 是最大的,我在这里的 $6=9-3$ 是否正确?我只是想了解 Pearson 样本相关系数 为 0 时的概念。

标签: matlab statistics correlation pearson-correlation


【解决方案1】:

鉴于当前的 cmets,您正试图了解来自两个分布的两个随机抽取序列如何具有零相关性。具体来说,您提到的练习 4.6.9 来自两个正态分布。

您的方法的一个问题是您希望在理论属性和实验之间建立联系,在这种情况下使用 Matlab。而且,正如您似乎已经注意到的那样,除非您正在查看特定的退化案例,否则您的实验将会失败。这是因为尽管练习中真正的相关参数 rho 可能为零,但随机抽取的样本将始终具有某种程度的相关性。这是一个插图,如果您运行它,您会注意到实际相关性跨越了 -1 和 1 之间的整个频谱,尽管它们的平均值为零(因为这两个生成器都是伪不相关的):

n=1e4;
experiment = nan(n,1);
for i=1:n
    r = corrcoef(rand(4,1),rand(4,1));
    experiment(i)=r(2);
end
hist(experiment);
title(sprintf('Average correlation: %.4f%%',mean(experiment)));

如果您查看wikipedia 中 Pearson 相关性的定义,您会发现它可以为零的唯一方法是当分子为零时,即 E[(X-Xbar)(Y-Ybar)]= 0。尽管这可能是渐近的情况,但您将很难找到在小样本中发生这种情况的非退化情况。尽管如此,为了向您展示您可以推导出一些这样的退化案例,让我们进一步挖掘一下。如果您希望该产品的期望为零,您可以将左侧或右侧部分设为零,而另一个部分不为零。对于一侧为零,平局必须完全等于平局的平均值。因此我们可以想象使用这种技术创建这样一对变量:

  • 我们创建了两个包含 4 个变量的向量,然后交替绘制等于平均值​​的值。
  • 假设我们希望 X 平均为 1,Y 平均为 2,我们使偶数索引平局等于 X 的平均值,奇数索引平局等于 Y 的平均值。
  • 这样的一代是:X=[0,1,2,1], Y=[2,0,2,4],您可以检查corrcoef([0,1,2,1],[2,0,2,4]) 确实产生了一个单位矩阵。这是因为,每当 X 的一个分量不同于其平均值 1 时,Y 中的分量就等于其平均值 2。
  • 另一个示例,其中 X 的平均值为 3,Y 的平均值为 4:X=[3,-5,3,11],Y=[1008,4,-1000,4]。等

如果您想知道如何完全从不相关的分布中创建样本,那将是完全不同的问题,尽管(也许)在理解统计数据方面更有趣。如果这是您的情况,并且鉴于您提到的练习讨论了正态分布,我建议您看看使用 Box-Muller 转换生成对立变量。

随机化快乐!

【讨论】:

  • 终于有人完全理解了我想要做什么和saved me。如果您是一名优秀的统计学家,您可能会对 this question 感兴趣,因为未知原因将关闭它。
  • @user2925716:如果这个答案“救了你”,你至少可以点赞并接受。
  • @user2925716:感谢您的积极反馈。不幸的是,你最初的数学问题似乎超出了我的血统......因为这似乎来自一门课​​程,知道这一章的内容将为使用哪些方法提供线索。在不知道的情况下,我的第一种方法可能是在一些蛮力代数上折断几颗牙齿之后,可能会查看生成的特征函数,看看它是否与学生分布的特征函数匹配。如果在那一章讨论“特征函数”,那么这将强烈指向这个方向。
  • @sg1234 我想知道(为了满足我的好奇心)是否有其他(短)向量具有定义为零的皮尔逊相关性,而不是已经出现的这种类型的向量:作为 X 平均 1 与 Y 平均 2 交替?
  • @user2925716 参见。公式:协方差的分子是产品的期望值,即 X 每次抽取的值减去它的平均值,乘以 Y 的每次抽取值减去它的平均值(期望也包括概率,但我只假设事件概率> 0,因此实际概率与寻找零分子无关)。乘积为零的唯一方法是当乘法的一侧或两侧为零时。因此有很多方法可以构建这样的例子,但它们都依赖于这个原则,afaict。
猜你喜欢
  • 1970-01-01
  • 2011-09-10
  • 2011-09-13
  • 2012-11-19
  • 2013-10-12
  • 1970-01-01
  • 2011-08-20
  • 1970-01-01
  • 2016-03-28
相关资源
最近更新 更多