机器学习基础（3）代价函数

上篇文章中我们提到了代价函数 $J(\theta)$ ，并期望使它最小化，那代价函数长什么样子呢？
接下来，我们将给大家一个直观的感受，看看参数 $\theta$ 取不同值时， $J(\theta)$ 的几何呈现

我们可以把训练集中的样本 $(x,y)$ 想象成分散在xy平面上的点，然后通过一条直线来拟合这些点，这条直线就是我们的假设函数 $h_{\theta}(x)=\theta_{0}+\theta_{1}x$ ，这里我们令 $\theta_{0}=0$ ，看 $J(\theta)$ 随 $\theta_{1}$ 的变化情况

（1）. 当 $\theta_{1}=1时$ ， $h_{\theta}$ 和 $J(\theta)$ 的几何意义分别如下：
机器学习基础（3）代价函数
从上图右可以看出，当 $\theta_{1}=1时$ ，代价函数的值（绿叉表示的点） $J(\theta)=0$

（2）. 当 $\theta_{1}=0.5时$ ， $h_{\theta}$ 和 $J(\theta)$ 的几何意义分别如下：
机器学习基础（3）代价函数
从上图右可以看出，当 $\theta_{1}=0.5$ 时，代价函数的值（蓝叉表示的点） $J(\theta)=0.58$ ，增加了0.58。
（3）. 我们把 $\theta_{1}$ 一些可能的取值画出来，就形成了以下曲线：