最近学习PCA,在求最大化方差 σ2=P−11∑k=1P(vT(xk−μ))2−λ(∥v∥2−1) 时遇到了无偏估计的问题——为什么是P-1而不是P?整理了一些笔记写上来供参考,有错误的地方望批评指正。
简单理解
首先我们了解下无偏估计的定义:
估计量的数学期望等于被估计参数的真实值,则此估计量为被估计参数的无偏估计。
乍一看很绕口,我们从现实中的简单例子去解释会更好理解。
如果我们想知道一个城市人口的平均高度,我们可以通过采集该城市所有人的身高并计算平均值,这样得到的就是无偏的平均身高。
但实际情况是,出于成本考虑,我们不太可能去测量所有人的身高,于是我们通过采样来估计实际的平均身高。于是我们应用了随机采样等方法,而这些方法虽然没法准确地估计该城市的平均身高,但不同的采样方法均在真实平均身高附近波动,那么我们就可以说这个估计是无偏的。
类似的,我们用一下以下算法去估计总体方差:
s2=n1i=1∑n(xi−xˉ)2
以芯靶图为例,如果我们用n代入计算得到的预测值会偏离靶图中心;而用n计算,得到的值会在靶图中心。


数学证明及解析
将公式展开计算如下:
s2=n−1∑i=1n(xi−xˉ)2E(s2)=E(n−1∑i=1n(xi−xˉ)2)=n−11E[i=1∑n(xi−xˉ)2]=n−11E[i=1∑n[(xi−μ)−(xˉ−μ)]2]
E[∑i=1n[(xi−μ)−(xˉ−μ)]2]由E[∑i=1n(xi−xˉ)2]加一个μ括号里面再减一个μ得到。展开得到:
=n−11E[i=1∑n(xi−μ)2−2i=1∑n(xi−μ)(xˉ−μ)+i=1∑n(xˉ−μ)2]=n−11E[i=1∑n(xi−μ)2−2(xˉ−μ)i=1∑n(xi−μ)+i=1∑n(xˉ−μ)2]=n−11E[i=1∑n(xi−μ)2−n(xˉ−μ)2]=n−11(i=1∑nE(xi−μ)2−nE[(xˉ−μ)2])=n−11(i=1∑nσxi2−nσxˉ2)
其中,xˉ−μ是个数所以能够被从求和符号内提出来。
又因为σxi2=σ2,且σxi2=nσ2,因此:
=n−11(nσ2−σ2)=n−11(n−1)σ2=σ2
因此E(s2)是σ2的无偏估计量。
Reference
https://www.zhihu.com/question/22983179
https://www.youtube.com/watch?v=wlcvRrYKkx8