本讲内容

1. Newton's method(牛顿法)

2. Exponential Family(指数簇)

3. Generalized Linear Models(GLMs)(广义线性模型)

 

1.牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

假如有函数(笔记)斯坦福机器学习第四讲--牛顿法, 寻找(笔记)斯坦福机器学习第四讲--牛顿法使得(笔记)斯坦福机器学习第四讲--牛顿法

牛顿法的步骤如下:

(1) initialize (笔记)斯坦福机器学习第四讲--牛顿法 as some value. 上图中用 (笔记)斯坦福机器学习第四讲--牛顿法 初始化(笔记)斯坦福机器学习第四讲--牛顿法 的值

(2) 在这一点上对f求值得到(笔记)斯坦福机器学习第四讲--牛顿法,之后计算这一点的导数值(笔记)斯坦福机器学习第四讲--牛顿法

(3) 作该点的切线,得到与横轴的交点的值(笔记)斯坦福机器学习第四讲--牛顿法,此为牛顿法的一次迭代。

更新公式为

(笔记)斯坦福机器学习第四讲--牛顿法         (笔记)斯坦福机器学习第四讲--牛顿法

 

(笔记)斯坦福机器学习第四讲--牛顿法

我们可以使用牛顿法取代梯度上升法作极大似然估计

对对数似然函数(笔记)斯坦福机器学习第四讲--牛顿法, want (笔记)斯坦福机器学习第四讲--牛顿法 s.t. (笔记)斯坦福机器学习第四讲--牛顿法

 

对于一次迭代,(笔记)斯坦福机器学习第四讲--牛顿法

通常来说,牛顿法对函数f有一定的要求(具体没说),牛顿法对logistic函数效果很好。

(笔记)斯坦福机器学习第四讲--牛顿法的初始值并不会对牛顿法收敛的结果产生影响。

牛顿法的收敛属于二次收敛(每一次迭代都会使误差的数量级乘方),正常情况下速度会比二次收敛慢,但是依然比梯度下降法快。

牛顿法的一般化:

(笔记)斯坦福机器学习第四讲--牛顿法

H is the Hessian matrix(黑塞矩阵) (笔记)斯坦福机器学习第四讲--牛顿法

牛顿法的缺点是,当特征数量过大的时候,求黑塞矩阵的逆会耗费相当长的时间。

 

 

2.指数簇

指数簇的一般形式

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法 -自然参数(natural parameter)

(笔记)斯坦福机器学习第四讲--牛顿法- 充分统计量(sufficient statistic) 通常情况下(伯努利分布或者高斯分布): (笔记)斯坦福机器学习第四讲--牛顿法

固定a,b,T, 改变(笔记)斯坦福机器学习第四讲--牛顿法的值, 会得到一组不同的概率分布。

伯努利分布和高斯分布都是指数分布簇的特例

对于伯努利分布

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

            (笔记)斯坦福机器学习第四讲--牛顿法

            (笔记)斯坦福机器学习第四讲--牛顿法

            (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

   (笔记)斯坦福机器学习第四讲--牛顿法     (笔记)斯坦福机器学习第四讲--牛顿法

   (笔记)斯坦福机器学习第四讲--牛顿法 (笔记)斯坦福机器学习第四讲--牛顿法

 (笔记)斯坦福机器学习第四讲--牛顿法

对于高斯分布

考虑到方差对最终结果没有影响, 在这里设置(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

     (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

   (笔记)斯坦福机器学习第四讲--牛顿法

   (笔记)斯坦福机器学习第四讲--牛顿法

   (笔记)斯坦福机器学习第四讲--牛顿法

 

指数分布族还包括很多其他的分布: 
多项式分布(multinomial) 
泊松分布(poisson):用于计数的建模 
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模 
β分布Dirichlet分布:对小数建模 

 

3.广义线性模型(GLMS)

为了导出广义线性模型,首先制定三个假设:

(1) (笔记)斯坦福机器学习第四讲--牛顿法

(2) Given (笔记)斯坦福机器学习第四讲--牛顿法, goal is to output (笔记)斯坦福机器学习第四讲--牛顿法

    want (笔记)斯坦福机器学习第四讲--牛顿法

(3) (笔记)斯坦福机器学习第四讲--牛顿法  即自然参数与特征向量之间是线性相关的

 

对于伯努利分布

(笔记)斯坦福机器学习第四讲--牛顿法   (笔记)斯坦福机器学习第四讲--牛顿法

在上节的指数簇中推导出 (笔记)斯坦福机器学习第四讲--牛顿法  (笔记)斯坦福机器学习第四讲--牛顿法

而根据假设(3) (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

我们的目标是输出  (笔记)斯坦福机器学习第四讲--牛顿法

由上节知 (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

             (笔记)斯坦福机器学习第四讲--牛顿法

而  (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

      (笔记)斯坦福机器学习第四讲--牛顿法

      (笔记)斯坦福机器学习第四讲--牛顿法

该函数即为logistic 函数

 

对于高斯分布

在最小二乘估计中,我们假设响应变量是连续的,且服从高斯分布 (笔记)斯坦福机器学习第四讲--牛顿法

我们的目标是输出(笔记)斯坦福机器学习第四讲--牛顿法 

由上节知 (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

      (笔记)斯坦福机器学习第四讲--牛顿法

      (笔记)斯坦福机器学习第四讲--牛顿法

             (笔记)斯坦福机器学习第四讲--牛顿法

顺带一提

正则响应函数(canonical response function):(笔记)斯坦福机器学习第四讲--牛顿法 
正则链接函数(canonical link function):(笔记)斯坦福机器学习第四讲--牛顿法 

 

 

4.Softmax回归(多类分类问题)

多项式分布 (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

这k个参数是冗余的,所以 我们定义 (笔记)斯坦福机器学习第四讲--牛顿法

在后面的过程中,我们将不使用 (笔记)斯坦福机器学习第四讲--牛顿法 这个参数

多项式分布属于指数分布簇,但是 (笔记)斯坦福机器学习第四讲--牛顿法

在这里按照如下定义(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法   (笔记)斯坦福机器学习第四讲--牛顿法 ... (笔记)斯坦福机器学习第四讲--牛顿法  (笔记)斯坦福机器学习第四讲--牛顿法

都是k-1维的向量

引入指示函数(笔记)斯坦福机器学习第四讲--牛顿法(笔记)斯坦福机器学习第四讲--牛顿法

用  (笔记)斯坦福机器学习第四讲--牛顿法 表示向量(笔记)斯坦福机器学习第四讲--牛顿法 的第(笔记)斯坦福机器学习第四讲--牛顿法个元素,则 (笔记)斯坦福机器学习第四讲--牛顿法

 

(笔记)斯坦福机器学习第四讲--牛顿法

        (笔记)斯坦福机器学习第四讲--牛顿法

       (笔记)斯坦福机器学习第四讲--牛顿法

 

where (笔记)斯坦福机器学习第四讲--牛顿法

         (笔记)斯坦福机器学习第四讲--牛顿法

         (笔记)斯坦福机器学习第四讲--牛顿法

反过来,

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

为了减少参数冗余,定义

(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

 

由GLMS的假设3:  (笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

 

所以我们可以得到需要的假设(笔记)斯坦福机器学习第四讲--牛顿法

(笔记)斯坦福机器学习第四讲--牛顿法

          (笔记)斯坦福机器学习第四讲--牛顿法

          (笔记)斯坦福机器学习第四讲--牛顿法

这种方法是logistic回归的推广,应用于多分类问题。

优化目标依然是极大似然估计

(笔记)斯坦福机器学习第四讲--牛顿法

         (笔记)斯坦福机器学习第四讲--牛顿法

 

 其中

(笔记)斯坦福机器学习第四讲--牛顿法

使用梯度上升法或者牛顿法解得最优参数(笔记)斯坦福机器学习第四讲--牛顿法

 

第四讲完。

 

        

 

     

 

相关文章: