最小二乘法之求和与矩阵互转

背景

在多元线性回归里面，我们得到了一个最小二乘法的公式。在机器学习里面，我们更喜欢把公式转化为矩阵的形式。

今天，老师给我们出了一道题目，说：请把最小二乘法从公式到矩阵的推导过程写出来。

我推到了两天，都没推导出来。hahhaha~，我当时就没有理解到老师的意思。她说的推导和我理解的推导，然而不完全一样。

那么，下面就来说说。最小二乘法从公式到矩阵的演变过程(简单版)。

公式了解

$最小二乘法 (l e a s t s q u a r e m e t h o d) :$

$求和形式：$

\begin{aligned} (w^{*}, b^{*}) & = \underset{(w, b)}{\arg min} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2} \\ = \underset{(w, b)}{\arg min} \sum_{i = 1}^{m} (y_{i} - w x_{i} - b)^{2} \end{aligned}

$矩阵形式：$

{\hat{w}}^{*} = a r g m i n (y - X \hat{w})^{T} (y - X \hat{w})

$参数详解 :$

参数	行列	具体形式
$X$	$X \in R^{m \times (d + 1)} m 行, d + 1 列$	$(\begin{matrix} x_{11} & x_{12} & . . . & x_{1 d} & 1 \\ x_{21} & x_{22} & . . . & x_{2 d} & 1 \\ . . . & . . . & . . . & . . . & . . . \\ x_{m 1} & x_{m 2} & . . . & x_{m d} & 1 \end{matrix}) = (\begin{matrix} x_{1}^{T} & 1 \\ x_{2}^{T} & 1 \\ . . . & . . . \\ x_{m}^{T} & 1 \end{matrix})$
$y$	$y_{i} \in R^{m \times 1} m 行， 1 列代表每个样本的标签$	$(\begin{matrix} y_{1} \\ y_{2} \\ . . . \\ y_{m} \end{matrix})$
$x_{i}$	$x_{i} \in R^{d \times 1} 以西瓜书为例，一个 x_{i} 就是一个西瓜样本，这个样本包括了色泽、根底、敲声等等$	$(\begin{matrix} x_{1} \\ x_{2} \\ . . . \\ x_{d} \end{matrix})$
$w$	$w \in R^{d \times 1} w 和 b 吸收入向量形式 \hat{w} = (w; b)$	$(\begin{matrix} w_{1} \\ w_{2} \\ . . . \\ w_{d} \\ b \end{matrix})$

开始推导

(y - X \hat{w})^{T} (y - X \hat{w})

推导分析：

$(y - X \hat{w}) 中，$
$y 是一个 m \times 1 的列矩阵。$
$X 是一个 m \times (d + 1) 的矩阵，而 \hat{w} 是一个 (d + 1) \times 1 的矩阵。$
$那么， X \hat{w} 根据矩阵相乘的知识，结果是一个 m \times 1 的列矩阵。$
$y 是一个列矩阵， X \hat{w} 也是一个列矩阵，根据矩阵减法，得到的结果也是一个列矩阵。$

$(y - X \hat{w})^{T} 中，$
$推导过程和上面一样，但是最后结果还要转置一下。$
$也就是说，最后是一个 1 \times m 行矩阵$

$那么，根据矩阵乘法，一个行矩阵乘上一个列矩阵，为一个常数。$
$m \times 1 矩阵和 m \times 1 矩阵相乘，结果为一个 1 \times 1 的矩阵，即一个常数$
$(y - X \hat{w})^{T} (y - X \hat{w}) 即为常数。$

最小二乘法之求和与矩阵互转

总结

老师是从矩阵的角度，去判断求和公式和矩阵公式之间的关系。

我当时还拆开一个一个代进去算，其实拆开也可以。

不过没必要，主要证明矩阵公式和求和公式是有这么一个过程可以推导就足够了。