10 因子分析（进阶版）

标签：机器学习与数据挖掘
（此篇的R代码对应本博客系列《11 R语言手册（第四站降维方法）》）

1.因子分析定义

有p个成分的观测随机向量X，有均值 $\boldsymbol{\mu}$ 和协方差矩阵 $\boldsymbol{\varSigma}$ 。因子模型要求X是线性依赖于几个不能观测的称之为公共因子的随机变量 $F_1,F_2,...,F_m$ 和p个附加的称之为误差或有时也称为特殊因子的变差源 $\varepsilon _1,\varepsilon _2,...,\varepsilon_p$ 。具体地，因子分析模型是：
$X_1-\mu _1\,\,=\,\,l_{11}F_1\,\,+\,\,l_{12}F_2\,\,+\,\,...+\,\,l_{1m}F_m\,\,+\,\,\varepsilon _1 \\ X_2-\mu _2\,\,=\,\,l_{21}F_1\,\,+\,\,l_{22}F_2\,\,+\,\,...+\,\,l_{2m}F_m\,\,+\,\,\varepsilon _{\begin{array}{c} \begin{array}{c} 2\\ \end{array}\\ \end{array}} \\ ...... \\ X_p-\mu _p\,\,=\,\,l_{p1}F_1\,\,+\,\,l_{p2}F_2\,\,+\,\,...+\,\,l_{pm}F_m\,\,+\,\,\varepsilon _p$
或者直接写成矩阵的形式：
$\mathop{\boldsymbol{X}-\boldsymbol{\mu }}_{\left( p\times 1 \right)}=\underset{\left( p\times m \right)}{\boldsymbol{L}}\,\,\underset{\left( m\times 1 \right)}{\boldsymbol{F}}\,\,+\underset{\left( p\times 1 \right)}{\boldsymbol{\varepsilon }}$

我们称系数 $l_{ij}$ 为第 $i$ 个变量在第 $j$ 个因子上的载荷，故，矩阵L是因子载荷阵。
注意，第 $i$ 个特殊因子 $\varepsilon _i$ 只与第 $i$ 个响应 $X_i$ 相联系。而且 $p$ 个差 $X_1-\mu _1,X_2-\mu _2,...,X_p-\mu _p$ 用 $p+m$ 个随机变量 $F_1,F_2,...,F_m,\varepsilon _1,\varepsilon _2,...,\varepsilon_p$ 表达，这些是不能被观测到的。
因此没有办法从 $X_1,X_2,...X_P$ 这些观测值来直接确认这个因子模型。所以我们通过对随机向量F,和 $\boldsymbol{\varepsilon }$ 作某些附加假设后，我们可以推出某种协方差关系。
$E\left( F \right) =\text{0,}Cov\left( F \right) =E\left[ FF' \right] =\underset{\left( m\times m \right)}{\boldsymbol{I}} \\ E\left( \varepsilon \right) =\underset{\left( p\times 1 \right)}{0},Cov\left( \boldsymbol{\varepsilon } \right) =E\left[ \boldsymbol{\varepsilon \varepsilon '} \right] =\underset{\left( p\times p \right)}{\boldsymbol{\varPsi }}=\left[ \begin{matrix}{l} \psi _1& 0& \cdots& 0\\ 0& \psi _2& \cdots& 0\\ \vdots& \vdots& \ddots& \vdots\\ 0& 0& \cdots& \psi _p\\ \end{matrix} \right]$
且，F与 $\boldsymbol{\varepsilon}$ 独立，故
$Cov\left( \boldsymbol{\varepsilon ,F} \right) =E\left( \boldsymbol{\varepsilon F'} \right) =0$
这样，这些假设和我们的因子分析模型就能构成正交因子模型
10 因子分析（进阶版）
正交因子模型推出X的协方差结构：
$\boldsymbol{\varSigma }=Cov\left( \boldsymbol{X} \right) \\ =E\left( \boldsymbol{X}-\mu \right) \left( \boldsymbol{X}-\mu \right) ' \\ =\boldsymbol{L}E\left( \boldsymbol{FF'} \right) \boldsymbol{L'}+E\left( \boldsymbol{\varepsilon F'} \right) \boldsymbol{L'}+\boldsymbol{L}E\left( \boldsymbol{F\varepsilon '} \right) +E\left( \boldsymbol{\varepsilon \varepsilon '} \right) \\ =\boldsymbol{LL'}+\boldsymbol{\varPsi }$
根据上式的推导，也有：
$\left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'}=\left( \boldsymbol{LF}+\boldsymbol{\varepsilon } \right) \boldsymbol{F'} \\ =\boldsymbol{LFF'}+\boldsymbol{\varepsilon F'}$
$Cov\left( \boldsymbol{X,F} \right) =E\left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'} \\ =E\left( \boldsymbol{X}-\boldsymbol{\mu } \right) \boldsymbol{F'} \\ =\boldsymbol{L}E\left( \boldsymbol{FF'} \right) +E\left( \boldsymbol{\varepsilon F'} \right) \\ =\boldsymbol{L}$
总结一下：
10 因子分析（进阶版）
由 $m$ 个公共因子贡献的第 $i$ 个变量的方差部分，叫做第 $i$ 个共性方差。属于特殊因子的$ Var\left( X_i \right) =\sigma {ii} $部分，常称为独特方差或特殊方差。用$ h{i}^{2} $出记第$ i$个共性方差，从我们看到：
10 因子分析（进阶版）