上篇文章中我们提到了代价函数J(θ)J(\theta),并期望使它最小化,那代价函数长什么样子呢?
接下来,我们将给大家一个直观的感受,看看参数θ\theta取不同值时,J(θ)J(\theta)的几何呈现

我们可以把训练集中的样本(x,y)(x,y)想象成分散在xy平面上的点,然后通过一条直线来拟合这些点,这条直线就是我们的假设函数hθ(x)=θ0+θ1xh_{\theta}(x)=\theta_{0}+\theta_{1}x,这里我们令θ0=0\theta_{0}=0,看J(θ)J(\theta)θ1\theta_{1}的变化情况

(1). 当θ1=1\theta_{1}=1时hθh_{\theta}J(θ)J(\theta)的几何意义分别如下:
机器学习基础(3)代价函数
从上图右可以看出,当θ1=1\theta_{1}=1时,代价函数的值(绿叉表示的点)J(θ)=0J(\theta)=0

(2). 当θ1=0.5\theta_{1}=0.5时hθh_{\theta}J(θ)J(\theta)的几何意义分别如下:
机器学习基础(3)代价函数
从上图右可以看出,当θ1=0.5\theta_{1}=0.5时,代价函数的值(蓝叉表示的点)J(θ)=0.58J(\theta)=0.58,增加了0.58。
(3). 我们把θ1\theta_{1}一些可能的取值画出来,就形成了以下曲线:
机器学习基础(3)代价函数

相关文章: