线性回归的梯度下降法与训练集关系

代价函数定义：
线性回归的梯度下降法与训练集关系代价函数 $j(\theta_{0}，\theta_{1}) = \frac{1}{2m} \sum_{m=1}^m(h_{\theta}( x^{(i)}) - y^{(i)})^2$ 即所有样本 $x^{(i)}$ 通过模型 $h_{\theta}( x^{(i)} )$ 计算出来预测值，与实际值 $y^{(i)}$ 的方差，方差越小，说明模型 $h_{\theta}( x) = \theta_{0} + \theta_{1}x$ 对样本拟合度越高

假设代价函数 $j(\theta_{0},\theta_{1})$ 与 $\theta_{0},\theta_{1}$ 的关系如下
线性回归的梯度下降法与训练集关系

注意：线性回归的代价函数是一个凸函数，有唯一全局最小值，有兴趣的朋友自行查阅资料推导

当 $j(\theta_{0},\theta_{1})$ 的值为全局最小值，如何求 $\theta_{0},\theta_{1}$ 呢？

梯度下降定义：
线性回归的梯度下降法与训练集关系
梯度下降法的核心是，首先随机找一个点（即随机给 $\theta_{0},\theta_{1}$ 赋值），每次在原来点的基础上，在 $\theta_{0}$ 方向上移动 $-\alpha{\frac{\partial}{\partial\theta_{0}} }j(\theta_{0},\theta_{1})$ 距离，在 $\theta_{1}$ 方向上移动 $-\alpha{\frac{\partial}{\partial\theta_{1}} }j(\theta_{0},\theta_{1})$ 距离，不断重复以上步骤，即可让 $\theta_{0},\theta_{1}$ 不断向最小值的点 $\theta_{0min},\theta_{1min}$ 靠拢。

为何要移动 $-\alpha{\frac{\partial}{\partial\theta_{0}} }j(\theta_{0},\theta_{1})$

${\frac{\partial}{\partial\theta_{0}} }j(\theta_{0},\theta_{1})$ 是目标函数 $j(\theta_{0},\theta_{1})$ 在 $\theta_{0}$ 方向上的斜率，当斜率小于0时，此时 $\theta_{0}$ 小于 $\theta_{0min}$ ，即 $\theta_{0} := \theta_{0} -\alpha{\frac{\partial}{\partial\theta_{0}} }j(\theta_{0},\theta_{1})$ 会让 $\theta_{0}$ 变大，往 $\theta_{0min}$ 靠近，同样道理当斜率大于0时， $\theta_{0}$ 会变小，往 $\theta_{0min}$ 靠近。当 $\theta_{0}$ 越靠近 $\theta_{0min}$ ，斜率变化越来越小， $\theta_{0min}$ 斜率等于0， $\theta_{0}$ 靠近 $\theta_{0min}$ 速度越来越慢，直到 $\theta_{0} \approx \theta_{0min}$ 重复计算， $\theta_{0}$ 的值几乎不变，同样道理可以求出 $\theta_{1}$

${\frac{\partial}{\partial\theta_{0}} }j(\theta_{0},\theta_{1})，{\frac{\partial}{\partial\theta_{1}} }j(\theta_{0},\theta_{1})$ 计算

分别将 $j(\theta_{0}，\theta_{1}) = \frac{1}{2m} \sum_{m=1}^m(h_{\theta}( x^{(i)}) - y^{(i)})^2$ 代入，得到
线性回归的梯度下降法与训练集关系
在将 $h_{\theta}( x) = \theta_{0} + \theta_{1}x$ 代入，最后发现，每次循环我们计算偏导数，就是计算整个训练样本的总和。