这一讲主要是在说,一个 R m \mathbb{R}^m Rm 维空间中的点 (也就是一个 vector) 怎么样被投影到 R m \mathbb{R}^m Rm 的一个 subspace 上的。

Motivation: 对于方程 A x = b \bm{Ax=b} Ax=b,我们之前已经知道它有解的充要条件是 b \bm{b} b A \bm{A} A 的 column space C ( A ) C(\bm{A}) C(A) 中。那么,如果 b \bm{b} b 不在 C ( A ) C(\bm{A}) C(A) 中怎么办尼 (比如我们不停地对卫星的位置进行观测得到一系列的位置方程,但每个方程都有noise)?此时 exact solution 不存在,我们可以尝试求一个近似的最优解。即,把 b \bm{b} b 投影到 C ( A ) C(\bm{A}) C(A) 上,再求出 x ^ \hat{\bm{x}} x^ 使得 A x ^ = P b \bm{A\hat{x}=Pb} Ax^=Pb, 其中 P \bm{P} P 是一个投影矩阵 (一个vector转换到另一个vector)。

A ⊤ A \bm{A^\top A} AA

在进入正题之前,我们先看一下矩阵 A ⊤ A \bm{A^\top A} AA。结论: A m × n \bm{A}_{m\times n} Am×n 是一个列满秩矩阵, 那么 A ⊤ A \bm{A^\top A} AA ( n × n n\times n n×n) 满秩

Proof. 令 A ⊤ A x = 0 \bm{A^\top A x=0} AAx=0, 我们只要证明 x = 0 \bm{x=0} x=0 即可证明 A ⊤ A \bm{A^\top A} AA 满秩。

A ⊤ A x = 0 \bm{A^\top A x=0} AAx=0, 我们有 x ⊤ A ⊤ A x = 0 \bm{x^\top A^\top A x}=0 xAAx=0,则
x ⊤ A ⊤ A x = ( A x ) ⊤ A x = 0 \bm{x^\top A^\top A x}= (\bm{A x})^\top \bm{A x}=0 xAAx=(Ax)Ax=0

因此 A x \bm{A x} Ax 长度为 0,则 A x = 0 \bm{A x=0} Ax=0. 又 A \bm{A} A 列满秩, 则 x = 0 \bm{x=0} x=0. 得证。

同理,我们可以得到,如果 A m × n \bm{A}_{m\times n} Am×n 是行满秩, 那么 A A ⊤ \bm{A A^\top} AA ( m × m m\times m m×m) 满秩

二维空间

从最简单的二维空间开始,给定任一个点 b ∈ R 2 \bm{b}\in\mathbb{R}^2 bR2, 任意一个 matrix A 2 × 1 \bm{A}_{2\times 1} A2×1, 其vector space就是一条直线了。我们的问题是,什么样的投影矩阵 P 2 × 2 \bm{P}_{2\times 2} P2×2 能把 b \bm{b} b 投影到 C ( A ) C(\bm{A}) C(A) 这条直线上?

MIT 线性代数 Linear Algebra 15: 投影 projection

设投影后的矩阵是 d \bm{d} d, 那么显然存在某个实数 c c c 使得
d = A c \bm{d}=\bm{A}c d=Ac

实际上,我们最后要求的也就是这个 c c c 了。另
d ⊤ ( b − d ) = 0 \bm{d}^\top (\bm{b-d})=0 d(bd)=0

因为误差向量 b − d \bm{b-d} bd 一定是垂直于整个 subspace C ( A ) C(\bm{A}) C(A) 的(不然怎么叫投影)。把 d = A c \bm{d}=\bm{A}c d=Ac 代入,有
A ⊤ c ( b − A c ) = 0 \bm{A}^\top c (\bm{b}-\bm{A}c)=0 Ac(bAc)=0

因此,
c = A ⊤ b A ⊤ A c=\frac{\bm{A}^\top \bm{b}}{\bm{A}^\top \bm{A}} c=AAAb

d = A c = A A ⊤ b A ⊤ A \bm{d}=\bm{A}c=\bm{A}\frac{\bm{A}^\top \bm{b}}{\bm{A}^\top \bm{A}} d=Ac=AAAAb

P = A A ⊤ A ⊤ A \bm{P} = \frac{\bm{A}\bm{A}^\top }{\bm{A}^\top \bm{A}} P=AAAA

这样就得到了投影矩阵 P \bm{P} P,我们来看看他有什么样的性质,

  1. rank 为 1, column space 就是 A \bm{A} A 的column space, i.e., the line。
  2. symmetric
  3. P n = P \bm{P}^n=\bm{P} Pn=P.

m m m 维空间

好,现在我们考虑 general m m m 维空间的情况。

给定 b ∈ R m \bm{b}\in\mathbb{R}^m bRm, matrix A m × n \bm{A}_{m\times n} Am×n m ≥ n m\geq n mn。这里我们假设 A \bm{A} A 是一个列满秩的高瘦矩阵, C ( A ) ⊆ R m C(\bm{A})\subseteq \mathbb{R}^m C(A)Rm。 换句话说, A \bm{A} A的列是 subspace C ( A ) ⊆ R m C(\bm{A})\subseteq \mathbb{R}^m C(A)Rm 的一组基。
MIT 线性代数 Linear Algebra 15: 投影 projection

计算 P \bm{P} P 的过程和之前一样,首先投影后的vector一定是在 C ( A ) C(\bm{A}) C(A) 上的,因此一定存在一组 x \bm{x} x 使得
d = A x \bm{d}=\bm{A}\bm{x} d=Ax

而且误差向量 b − d \bm{b-d} bd 一定垂直于 C ( A ) C(\bm{A}) C(A), that is
A ⊤ ( b − d ) = 0 \bm{A}^\top(\bm{b-d})=0 A(bd)=0

换句话说, b − d \bm{b-d} bd A ⊤ \bm{A}^\top A 的null space里,也就是在 A \bm{A} A 的left null space里(垂直于 A \bm{A} A的column space)。
代入 d = A x \bm{d}=\bm{A}\bm{x} d=Ax 我们有
A ⊤ ( b − A x ) = 0 \bm{A}^\top(\bm{b}-\bm{A}\bm{x})=0 A(bAx)=0

A ⊤ A x = A ⊤ b \bm{A}^\top\bm{A}\bm{x}=\bm{A}^\top\bm{b} AAx=Ab

由于 A \bm{A} A 列满秩, A ⊤ A \bm{A}^\top\bm{A} AA 这个 n × n n\times n n×n 的矩阵是满秩的,因此
x = ( A ⊤ A ) − 1 A ⊤ b \bm{x}=(\bm{A}^\top\bm{A})^{-1}\bm{A}^\top\bm{b} x=(AA)1Ab

d = A x = A ( A ⊤ A ) − 1 A ⊤ b \bm{d}=\bm{A}\bm{x}=\bm{A}(\bm{A}^\top\bm{A})^{-1}\bm{A}^\top\bm{b} d=Ax=A(AA)1Ab

P = A ( A ⊤ A ) − 1 A ⊤ \bm{P}=\bm{A}(\bm{A}^\top\bm{A})^{-1}\bm{A}^\top P=A(AA)1A

相比于之前二维时 P = A A ⊤ A ⊤ A \bm{P} = \frac{\bm{A}\bm{A}^\top }{\bm{A}^\top \bm{A}} P=AAAA 分母是实数, 这里我们没法除以一个矩阵,所以以逆的形式写出。注意, ( A ⊤ A ) − 1 (\bm{A}^\top\bm{A})^{-1} (AA)1 是不能展开的,因为 A \bm{A} A 并不是方阵逆不存在,换句话说如果 A \bm{A} A 是满秩方阵,其实相当于我们把 b \bm{b} b 投影到整个空间里去了,这时候可以展开得到 P = I m \bm{P=I_m} P=Im,与我们的想法一致。

这个 P \bm{P} P 满足什么性质尼?

  1. rank是n?, yes!
  2. 对称?yes!
  3. P n = P \bm{P}^n=\bm{P} Pn=P? yes!

总结

对于 A x = b \bm{Ax=b} Ax=b, 任意给定一个 b \bm{b} b 如果不在 A \bm{A} A 的 column space 中 我们仍然可以把 b \bm{b} b 映射到 A \bm{A} A 的 column space 中。由于整个 R m \mathbb{R}^m Rm 空间被 A \bm{A} A 的column space 和 left null space 分割,因此,实际上我们是把 b \bm{b} b 分成两部分 d \bm{d} d e \bm{e} e, 其中, d \bm{d} d A \bm{A} A 的 column space 中, e \bm{e} e A \bm{A} A 的 left null space 中,且有
d = P b \bm{d=Pb} d=Pb

e = ( I − P ) b \bm{e=(I-P)b} e=(IP)b

其中 P \bm{P} P I − P \bm{I-P} IP 都是投影矩阵。

MIT 线性代数 Linear Algebra 15: 投影 projection

下一讲,我们着重讲projection的一个应用:最小二乘法找最佳拟合

相关文章:

  • 2021-08-30
  • 2021-08-30
  • 2021-08-30
  • 2021-12-30
  • 2021-11-26
  • 2021-11-26
  • 2021-07-20
  • 2021-12-30
猜你喜欢
  • 2021-12-30
  • 2021-08-04
  • 2021-04-27
  • 2021-08-30
  • 2021-12-31
  • 2021-08-04
  • 2021-08-30
  • 2021-12-30
相关资源
相似解决方案