1. 模型描述

吴恩达 【机器学习】第二章 单变量线性回归
吴恩达 【机器学习】第二章 单变量线性回归

模型变量

吴恩达 【机器学习】第二章 单变量线性回归
mm 代表训练集中实例的数量

xx 代表特征/输入变量

yy 代表目标变量/输出变量

(x,y)\left( x,y \right) 代表训练集中的实例

(x(i),y(i))({{x}^{(i)}},{{y}^{(i)}}) 代表第ii个观察实例

hh 代表学习算法的解决方案或函数也称为假设函数(hypothesis

hθ(x)=θ0+θ1xh_\theta \left( x \right)=\theta_{0} + \theta_{1}x,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。

模型过程

吴恩达 【机器学习】第二章 单变量线性回归

2. 代价函数(Cost Function)

吴恩达 【机器学习】第二章 单变量线性回归
吴恩达 【机器学习】第二章 单变量线性回归
吴恩达 【机器学习】第二章 单变量线性回归
吴恩达 【机器学习】第二章 单变量线性回归
吴恩达 【机器学习】第二章 单变量线性回归
吴恩达 【机器学习】第二章 单变量线性回归
吴恩达 【机器学习】第二章 单变量线性回归

3. 梯度下降(Gradient descent)

一种能够自动地找出能使代价函数JJ最小化的参数的值的算法。

问题描述

吴恩达 【机器学习】第二章 单变量线性回归

局部最优解

吴恩达 【机器学习】第二章 单变量线性回归

梯度下降法定义

吴恩达 【机器学习】第二章 单变量线性回归

  • αα是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
  • αθ0J(θ0,θ1)\alpha \frac{\partial }{\partial {{\theta }_{0}}}J({{\theta }_{0}},{{\theta }_{1}})αθ1J(θ0,θ1)\alpha \frac{\partial }{\partial {{\theta }_{1}}}J({{\theta }_{0}},{{\theta }_{1}})

学习率对梯度下降的影响

吴恩达 【机器学习】第二章 单变量线性回归

到达局部最小的时候

不再对参数值做更改
吴恩达 【机器学习】第二章 单变量线性回归

为什么可以只用一个固定的学习率

  • 当我们越靠近最小值的时候,导数值越小,step自然而然地就变小了
    吴恩达 【机器学习】第二章 单变量线性回归

cost函数一般是凸函数:只有一个全局最优解

吴恩达 【机器学习】第二章 单变量线性回归

线性回归的梯度下降

吴恩达 【机器学习】第二章 单变量线性回归
对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的导数,即:

θjJ(θ0,θ1)=θj12mi=1m(hθ(x(i))y(i))2\frac{\partial }{\partial {{\theta }_{j}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{\partial }{\partial {{\theta }_{j}}}\frac{1}{2m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}^{2}}

j=0j=0 时:θ0J(θ0,θ1)=1mi=1m(hθ(x(i))y(i))\frac{\partial }{\partial {{\theta }_{0}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}}

j=1j=1 时:θ1J(θ0,θ1)=1mi=1m((hθ(x(i))y(i))x(i))\frac{\partial }{\partial {{\theta }_{1}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}

则算法改写成:

repeat until convegence {
θ0:=θ0a1mi=1m(hθ(x(i))y(i)){\theta_{0}}:={\theta_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}

θ1:=θ1a1mi=1m((hθ(x(i))y(i))x(i)){\theta_{1}}:={\theta_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}
​ }

Batch梯度下降法

吴恩达 【机器学习】第二章 单变量线性回归

相关文章: