10 因子分析(进阶版)

标签: 机器学习与数据挖掘
(此篇的R代码对应本博客系列《11 R语言手册(第四站 降维方法)》)

1.因子分析定义

  有p个成分的观测随机向量X,有均值μ\boldsymbol{\mu}和协方差矩阵Σ\boldsymbol{\varSigma}。因子模型要求X是线性依赖于几个不能观测的称之为公共因子的随机变量F1,F2,...,FmF_1,F_2,...,F_m和p个附加的称之为误差或有时也称为特殊因子的变差源ε1,ε2,...,εp\varepsilon _1,\varepsilon _2,...,\varepsilon_p。具体地,因子分析模型是:
X1μ1  =  l11F1  +  l12F2  +  ...+  l1mFm  +  ε1X2μ2  =  l21F1  +  l22F2  +  ...+  l2mFm  +  ε2......Xpμp  =  lp1F1  +  lp2F2  +  ...+  lpmFm  +  εp X_1-\mu _1\,\,=\,\,l_{11}F_1\,\,+\,\,l_{12}F_2\,\,+\,\,...+\,\,l_{1m}F_m\,\,+\,\,\varepsilon _1 \\ X_2-\mu _2\,\,=\,\,l_{21}F_1\,\,+\,\,l_{22}F_2\,\,+\,\,...+\,\,l_{2m}F_m\,\,+\,\,\varepsilon _{\begin{array}{c} \begin{array}{c} 2\\ \end{array}\\ \end{array}} \\ ...... \\ X_p-\mu _p\,\,=\,\,l_{p1}F_1\,\,+\,\,l_{p2}F_2\,\,+\,\,...+\,\,l_{pm}F_m\,\,+\,\,\varepsilon _p
或者直接写成矩阵的形式:
Xμ(p×1)=L(p×m)  F(m×1)  +ε(p×1) \mathop{\boldsymbol{X}-\boldsymbol{\mu }}_{\left( p\times 1 \right)}=\underset{\left( p\times m \right)}{\boldsymbol{L}}\,\,\underset{\left( m\times 1 \right)}{\boldsymbol{F}}\,\,+\underset{\left( p\times 1 \right)}{\boldsymbol{\varepsilon }}

  我们称系数lijl_{ij}为第ii个变量在第jj个因子上的载荷,故,矩阵L是因子载荷阵。
  注意,第ii个特殊因子εi\varepsilon _i只与第ii个响应XiX_i相联系。而且pp个差X1μ1,X2μ2,...,XpμpX_1-\mu _1,X_2-\mu _2,...,X_p-\mu _pp+mp+m个随机变量F1,F2,...,Fm,ε1,ε2,...,εpF_1,F_2,...,F_m,\varepsilon _1,\varepsilon _2,...,\varepsilon_p表达,这些是不能被观测到的。
  因此没有办法从X1,X2,...XPX_1,X_2,...X_P这些观测值来直接确认这个因子模型。所以我们通过对随机向量F,和ε\boldsymbol{\varepsilon }作某些附加假设后,我们可以推出某种协方差关系。
E(F)=0,Cov(F)=E[FF]=I(m×m)E(ε)=0(p×1),Cov(ε)=E[εε]=Ψ(p×p)=[lψ1000ψ2000ψp] E\left( F \right) =\text{0,}Cov\left( F \right) =E\left[ FF' \right] =\underset{\left( m\times m \right)}{\boldsymbol{I}} \\ E\left( \varepsilon \right) =\underset{\left( p\times 1 \right)}{0},Cov\left( \boldsymbol{\varepsilon } \right) =E\left[ \boldsymbol{\varepsilon \varepsilon '} \right] =\underset{\left( p\times p \right)}{\boldsymbol{\varPsi }}=\left[ \begin{matrix}{l} \psi _1& 0& \cdots& 0\\ 0& \psi _2& \cdots& 0\\ \vdots& \vdots& \ddots& \vdots\\ 0& 0& \cdots& \psi _p\\ \end{matrix} \right]
且,Fε\boldsymbol{\varepsilon}独立,故
Cov(ε,F)=E(εF)=0 Cov\left( \boldsymbol{\varepsilon ,F} \right) =E\left( \boldsymbol{\varepsilon F'} \right) =0
这样,这些假设和我们的因子分析模型就能构成正交因子模型
10 因子分析(进阶版)
正交因子模型推出X的协方差结构:
Σ=Cov(X)=E(Xμ)(Xμ)=LE(FF)L+E(εF)L+LE(Fε)+E(εε)=LL+Ψ \boldsymbol{\varSigma }=Cov\left( \boldsymbol{X} \right) \\ =E\left( \boldsymbol{X}-\mu \right) \left( \boldsymbol{X}-\mu \right) ' \\ =\boldsymbol{L}E\left( \boldsymbol{FF'} \right) \boldsymbol{L'}+E\left( \boldsymbol{\varepsilon F'} \right) \boldsymbol{L'}+\boldsymbol{L}E\left( \boldsymbol{F\varepsilon '} \right) +E\left( \boldsymbol{\varepsilon \varepsilon '} \right) \\ =\boldsymbol{LL'}+\boldsymbol{\varPsi }
根据上式的推导,也有:
(Xμ)F=(LF+ε)F=LFF+εF \left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'}=\left( \boldsymbol{LF}+\boldsymbol{\varepsilon } \right) \boldsymbol{F'} \\ =\boldsymbol{LFF'}+\boldsymbol{\varepsilon F'}
Cov(X,F)=E(Xμ)F=E(Xμ)F=LE(FF)+E(εF)=L Cov\left( \boldsymbol{X,F} \right) =E\left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'} \\ =E\left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'} \\ =\boldsymbol{L}E\left( \boldsymbol{FF'} \right) +E\left( \boldsymbol{\varepsilon F'} \right) \\ =\boldsymbol{L}
总结一下:
10 因子分析(进阶版)
mm个公共因子贡献的第ii个变量的方差部分,叫做第ii个共性方差。属于特殊因子的$ Var\left( X_i \right) =\sigma {ii} 部分,常称为独特方差或特殊方差。用h{i}^{2}出记第i$个共性方差,从我们看到:
10 因子分析(进阶版)

相关文章: