9子空间的投影和Ax=b

转载自：https://blog.csdn.net/huang1024rui/article/details/69258689

此课老师说要名垂千古，就当作重中之重吧,讲投影,怎样投影，为什么要投影到其他子空间。

引子：

上一讲中遇到 $A x = b$ 无解的时候提到，当其无解的时候，我们求的解是什么？

我们想要的”最优解”对于原方程偏差最小，我们知道 $A x = b$ 有解时 $b$ 在 $A$ 的列空间（ $b$ 可以由 $A$ 的列向量线性表示）中；当无解时，我们取 $b$ 在 $A$ 的列空间的 $b^{'}$ ， $A x = b^{'}$ 理论上是”最优解”。

1.投影矩阵

1.1 二维欧式空间的投影

如图 $\vec{b}$ 到 $\vec{a}$ 的最短距离是b在a上的投影是p，a垂直于e，e就像误差e=b-p，e与p互相垂直，p是a的某个倍数x，p=xa，它在a的一维子空间里，可得到一个方程，求解x，方程为： $(a^{T}) (b - x a) = 0$ 。

其中 $(a^{T}) a$ 是一个常数， $a (a^{T})$ 是一个矩阵。假设b变成原来的2倍，那么投影 $p$ 也变成原来的2倍；如果a变为原来的2 倍，p则不变。

假设把上式写成： $p = P b$ ,则P称为投影矩阵，可以说投影矩阵作用与某个向量后，得到其投影向量 $p r o j e c t i o n_{p} = P b$ 。

投影矩阵P的性质：

1）rank(P)=1，因为P中 $a (a^{T})$ 是一个矩阵，而a秩为1；

2）向量a是列空间的基，因为投影矩阵乘以任何向量b后仍旧在其列空间，因此投影矩阵的列空间C(P)是通过a的一条线；

3）P是对称的( $P^{T}$ )=P；

4）对投影好的 $p$ 再次投影结果不变，所以 $P^{2} = P$ 。

1.2高维空间

1）正如引子所写，为什么要做投影？

因为 $A x = b$ 也许会无解，可能等式太多，造成无解，那么只能求解最接近的那个可能问题。 $A x$ 总在 $A$ 的列空间里，那么如果将 $b$ 微调，将 $b$ 变为列空间中最接近它自己的那一个，将问题换做求解 $A x^{'} = p$ （ $x^{'}$ 不是原来那个不存在的 $x$ ，而是那个最接近解的 $x^{'}$ ，即最优解）， $p$ 是 $b$ 在列空间上的投影（列空间中最接近理论精确解的那一个解）这就是要找最好的那个投影的原因。

2）在三维空间中，将向量b投影在平面上A。

同样的， $p$ 是向量 $b$ 在平面 $A$ 上的投影， $e$ 是垂直于平面 $A$ 的向量，即 $b$ 在平面 $A$ 法方向的分量。设平面 $A$ 的一组基为 $a_{1}, a_{2}$ ，则投影向量 $p = (a_{1}) (x_{1}^{'}) + (a_{2}) (x_{2}^{'})$ ，我们更倾向于写作 $p = A x^{'}$ ，这里如果我们求出 $x^{'}$ ，则该解就是无解方程组最近似的解。

它与直线上的投影方程很相似，对于直线来说，矩阵A只有一列，就是一个小写的a，本质都是 $(A^{T}) e = 0$ 。所以，e在 $(A^{T})$ 的零空间中，从前面几讲我们知道，左零空间与列空间垂直，则e与A的列空间垂直，与我们分析的几何图像的一致。

3）那么x’是什么？投影p 是什么？投影矩阵P 是什么？（与一维情况下得到的公式相比较）

2. 最小二乘法

如图，要找到一条最优的直线来拟合这些点，误差最小。我们要确定C 和D的大小，来得到b=C+Dt 方程。

根据条件可以得到方程组 ${\begin{cases} C + D = 1 \\ C + 2 D = 2 \\ C + 3 D = 2 \end{cases}$ ，写作矩阵形式 $[\begin{matrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{matrix}] [\begin{matrix} C \\ D \end{matrix}] = [\begin{matrix} 1 \\ 2 \\ 2 \end{matrix}]$ ，也就是我们的 $A x = b$ ，很明显方程组无解。

但是 $A^{T} A \hat{x} = A^{T} b$ 有解，于是我们将原是两边同时乘以 $A^{T}$ 后得到的新方程组是有解的， $A^{T} A \hat{x} = A^{T} b$ 也是最小二乘法的核心方程。

未完待续···

3.总结

1.投影矩阵及其应用；

2.解决Ax=b无解时，最优解的问题；

3.最小二乘法。