一、主要内容

1、线性回归

高斯分布

极大似然

最小二乘

梯度下降

2、logistic回归

分类问题的首选算法

二、线性回归

1、线性回归定义

回归模型描述的是一个因变量(Y)和一个或多个自变量之间(X)的关系,而线性回归描述的是不同的自变量对因变量都有不同的作用效果我们称作权重(θ,并且他们对因变量产生的影响都是线性可加的,可以描述为:

算法一、回归

直白说就是通过拟合自变量与因变量之前的线性关系,将自变量的值传入模型中得到因变量的预测值,并尽量使得预测值接近实际值的过程。(说法不严谨,此做法容易造成过拟合)

图像解释如下:

算法一、回归

2、线性回归推导

使用极大似然估计解释最小二乘

中心极限定理:实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往近似服从正态分布。城市耗电量:大量用户的耗电量总和测量误差:许多观察不到的、微小误差的总和,注:应用前提是多个随机变量的和,有些问题是乘性误差,则需要鉴别或者取对数后再使用。

最大似然估计:我们手中已经存在获得样本,并且这些样本值已经实现并且可以看作是发生的事件,那么最大似然估计就是找到是时间发生的概率的大的参数θ(因为手中的样本已经实现亦可以说成是时间发生,所以是事件发生的概率最大才符合逻辑)。

 

我们所拟合的模型的目的是预测实际值,那预测值与实际值之间必定是存在一定的误差的即:算法一、回归为预测值和实际值之间的误差,我们假设样本点都是独立同分布的,那么根据中心极限定理可知,误差算法一、回归是独立同分布的,服从均值为0,方差为某定值算法一、回归的高斯分布。

那么我们可以写出关于误差算法一、回归的似然概率,因为算法一、回归是独立同分布的则,似然概率为误差的连乘:

算法一、回归

若要求其最大值,正常的逻辑就是对其求导得0并且计算出参数θ,因为似然函数为连乘的形式,需要对其取对数变为相加的形式。

算法一、回归

根据上面的推导,因为算法一、回归为定值,那么最后的结果就变成了求:

算法一、回归

最小值。

则目标函数为:

算法一、回归

(求该目标函数最小就是最小二乘法)

 

求解:

算法一、回归

可得:

 算法一、回归

简便”方法记忆结论:

                             算法一、回归

而在我们实践中我们往往不会对目标函数进行求导求其解析解,并且并不是所有模型的目标函数都存在解析解,那么会采用梯度下降的方式来不断的接近最有参数θ。

梯度下降算法

过程如下:

1、初始化θ(随机初始化)

2、求解梯度:

             算法一、回归

3、沿着负梯度方向迭代,更新后的θ使J(θ)更小:

                             算法一、回归

α:学习率、步长)

4、将求得的参数带回模型建立结束。

三、Logistic回归

1Logistic回归定义

Logistic回归是针对线性可分问题的一种简单而且优异的分类模型。

对于线性回归公式如下即:算法一、回归

logistic回归也是基于现行回归的(Logistic回归可以认为是广义的线性回归,后面会解释),

公式如下:

                 算法一、回归

其中算法一、回归被称作sigmoid函数图像如下,logistic回归是将现行的结果映射到了sigmoid函数上,由图像可知算法一、回归是介于(0,1)之间的,也就说明logistic函数的输出值是样本属于某一类别的概率:

 算法一、回归

例:

   算法一、回归     属于A类;

 算法一、回归      属于B类。

那么接下来的任务就是求解参数算法一、回归

假定:

     算法一、回归

  算法一、回归

同样采用极大似然估计方法写出似然概率:

     算法一、回归

取对数得到对数似然概率并求导:

               算法一、回归

 

最后同样采用梯度下降算法求解参数θ:

                    算法一、回归

对数线性模型

即假设某时间发生的概率为P,那么时间不发生的概率为(1-P)乘P/(1-P)为时间发生的几率(odd)我们对几率取对数定义为算法一、回归

        算法一、回归

所以说logistic回归是广义上的线性模型 。

相关文章: