点积、内积、协方差与皮尔逊相关系数
现在空间有两个向量X=[a1a2]Y=[b1b2]X=[a_1\quad a_2]\quad Y=[b_1\quad b_2]
点积和内积是一致的,点积是和投影相关的。
XY=X2Y2cosθ=a1b1+a2b2X点乘Y=||X||_2||Y||_2cos\theta=a_1b_1+a_2b_2
向量XX在向量YY上的投影是XYY2\dfrac{X点乘Y}{||Y||_2}
协方差和相关系数是用来做相关分析的:
现在有两个属性XXYY,当XX取值a1a_1的时候,YY取值b1b_1,当XX取值a2a_2的时候,YY取值b2b_2。分析属性XX和属性YY的相关性。
协方差:
COV(X,Y)=E[(aa)(bb)]COV(X,Y)=E[(a-\overline{a})(b-\overline{b})]
皮尔逊相关系数就是:
ρX,Y=COV(X,Y)σXσY\rho_{X,Y}=\dfrac{COV(X,Y)}{\sigma_X \sigma_Y}
σXσY\sigma_X \sigma_Y分别是XXYY的方差。
a\overline{a}b\overline{b}都等于0并且XX取值a1a_1XX取值a2a_2的概率相同时:
COV(X,Y)=XY=a1b1+a2b2=X2Y2cosθCOV(X,Y)=X点乘Y=a_1b_1+a_2b_2=||X||_2||Y||_2cos\theta
其他情况下,协方差与点积是没有什么关系的。

协方差的物理意义理解并不是向量的投影。而是通过点a,ba,b与均值点meanmean所形成的矩形面积之和:
a=[a1b1]a=[a_1\quad b_1]表示XX取值a1a_1的时候,YY取值b1b_1
b=[a2b2]b=[a_2\quad b_2]表示XX取值a2a_2的时候,YY取值b2b_2
mean=[ab]mean=[\overline{a}\quad \overline{b}]表示XX的均值为a\overline{a}YY的均值为b\overline{b}
如下图:
点积、内积、协方差与皮尔逊相关系数
中间的点就是均值点meanmean
一象限的1号点:当a1>aa_1>\overline{a}时,b1>bb_1>\overline{b},所以矩阵面积a1b1a_1b_1是正的。
二象限的2号点:当a2<aa_2<\overline{a}时,b2>bb_2>\overline{b},所以矩阵面积a2b2a_2b_2是负的。
三象限的3号点:当a3<aa_3<\overline{a}时,b3<bb_3<\overline{b},所以矩阵面积a3b3a_3b_3是正的。
四象限的4号点:当a4>aa_4>\overline{a}时,b4<bb_4<\overline{b},所以矩阵面积a4b4a_4b_4是负的。
将所有矩形的面积加起来,如果是正的就是正相关,如果是负的就是负相关。
这个思想是来自于这篇文章,更详细的解释也可参见这篇文章
https://www.matongxue.com/madocs/568.html

相关文章: