极大似然估计解决线性回归问题（频率学派）

1 前言

线性回归问题中，我们使用LSE最小二乘损失函数；而在逻辑回归问题中，我们不能使用LSE损失函数，应该使用交叉熵损失函数，而交叉熵损失函数是由极大似然估计推导而来，推导过程见LR推导；
本文讲解如何从极大似然估计的角度解决线性回归问题。本文参考自PRML

给定数据集 $\{x_1,x_2, ...,x_m\}$ 和标签 $\{y_1,y_2, ...,y_m\}$ ，训练一个模型 $y(x,\theta)$ ，使得输入新的 $x$ ，输出对应的预测值。其中 $x_i\in R^n$ ，标签 $y_i\in R$ ；

建立一个判别模型，使得输入一个数据 $x$ ，输出所有可能的 $y$ 值对应的概率，如果 $y$ 值连续，则输出 $y$ 值的概率密度函数。
我们使用线性高斯分布（Linear Gaussian）来建立该判别模型：
$p(y|x,\theta,\beta)=\mathcal{N}(y|\theta^Tx,\beta^{-1})$
其中， $\theta^Tx$ 表示线性模型，也可以是其他形式的线性组合（注意，这里的线性指的是对参数 $\theta$ 线性）， $\beta$ 表示精度（方差的倒数）；

$L(\theta,\beta)=\prod_{i=1}^m\mathcal{N}(y_i|\theta^Tx_i,\beta^{-1})$

对数似然：
$lnL(\theta,\beta) = \frac{N}{2}ln\beta-\frac{N}{2}ln2\pi-\beta E_D(\theta)$
其中： $E_D(\theta)=\frac{1}{2}\sum_{i=1}^m[y_i-\theta^Tx_i]^2$
求导：
$\bigtriangledown lnL(\theta,\beta)=\sum_{i=1}^m[y_i-\theta^Tx_i]x_i$
令导数等于0，求得：
$\theta_{ML}=(X^TX)^{-1}X^TY$
其中，
$X= \left( \begin{matrix} x^1_1 & ... & x^1_n\\ ... & &...\\ x^m_1 & ... & x^m_n \end{matrix} \right)_{m\times n}$
$Y= \left( \begin{matrix} y_1\\ ...\\ y_m \end{matrix} \right)_{m\times 1}$
$m$ 为样本个数， $n$ 为样本特征数；

极大似然估计的计算结果 $\theta_{ML}=(X^TX)^{-1}X^TY$ ，就是最小二乘法求解线性回归问题的解，投影矩阵 $P = (X^TX)^{-1}X^T$ ， $\theta_{ML}$ 就是向量 $Y$ 向 $X$ 张成的子空间的投影。
此外，极大似然估计还能估计参数 $\beta$ 的结果，即仅通过最小二乘损失函数学习到的模型，使用时输入一个 $x$ ，只能输出一个 $y(x,\theta)$ ，但是通过线性高斯建立的判别模型，使用极大似然估计可以学习到两个参数 $\theta,\beta$ ，使用时输入一个 $x$ ，会输出一个条件高斯分布 $p(y|x,\theta,\beta)$ ，可以得到所有可能估计值y的概率分布。
最小二乘：
线性高斯：