step1 Function Set

要找的是一个几率,对应不同的类别
hung-yi lee_p11_Logistic Regression(cont.)
如果用高斯分布,该几率可以表示成sigma of z,其中z为
hung-yi lee_p11_Logistic Regression(cont.)
hung-yi lee_p11_Logistic Regression(cont.)
因此函数集也就是许许多多含有不同w,b的函数
hung-yi lee_p11_Logistic Regression(cont.)
图像化模型(图中z的表示错了)
hung-yi lee_p11_Logistic Regression(cont.)
逻辑回归与线性回归对比
hung-yi lee_p11_Logistic Regression(cont.)

step2 goodness of a function

假设有N笔数据组成的测试数据,每笔分属于某个类别
并假设测试数据的结果是刚才的概率生成函数产生的
hung-yi lee_p11_Logistic Regression(cont.)
注:这里的概率生成函数指的是
hung-yi lee_p11_Logistic Regression(cont.)
给定w和b,就可以算出概率生成函数产生以上N笔数据组成的测试数据的几率(最大似然函数)
hung-yi lee_p11_Logistic Regression(cont.)
最有可能产生以上测试数据对应的w,b也就是能使得以上函数几率最大的w,b。记作w和b
hung-yi lee_p11_Logistic Regression(cont.)
想让计算更容易,把找最大化L函数的(w,b)转化为找最小化-lnL函数的(w,b)
hung-yi lee_p11_Logistic Regression(cont.)
为了更好表示,作符号上的转换
将类别1记作1,类别2记作0
hung-yi lee_p11_Logistic Regression(cont.)
上式就可以写成
hung-yi lee_p11_Logistic Regression(cont.)
最大似然函数也就可以写成
hung-yi lee_p11_Logistic Regression(cont.)
其中中括号内的两项其实是两个伯努利分布的交叉熵
hung-yi lee_p11_Logistic Regression(cont.)
cross entropy(交叉熵)就是下式
hung-yi lee_p11_Logistic Regression(cont.)
它的作用是衡量两个分布有多接近,当两个分布一模一样,交叉熵就是0

对比逻辑回归和线性回归,问题来了,为何不像线性回归一样直接使用平方损失作为损失函数?(见第四部分)
hung-yi lee_p11_Logistic Regression(cont.)

Find the best function

使用梯度下降找到最佳函数
数学计算具体见视频18分钟左右
总之,对求对数、取反后的最大似然函数求导后得到的结果如下
hung-yi lee_p11_Logistic Regression(cont.)
使用梯度下降更新参数
hung-yi lee_p11_Logistic Regression(cont.)
也就是跟新的快慢取决于三个量①学习率(自己定)②真实结果和求出结果的差距③取决于数据的

比较逻辑回归和线性回归更新参数的方式,发现一样的
hung-yi lee_p11_Logistic Regression(cont.)

why not Logistic Regression + Square Error

如果这么做了,会造成(以类别1为例)
训练结果离真实结果很近时,微分是0(合理)
训练结果离真实结果很远时,微分是0(不合理)
hung-yi lee_p11_Logistic Regression(cont.)
这就造成,使用均方差,离目标很远时,一开始就卡住了
hung-yi lee_p11_Logistic Regression(cont.)

Discriminative v.s. Generative

判别模型和生成模型对比
①step1 函数集相同
hung-yi lee_p11_Logistic Regression(cont.)
不同的是找w和b的过程(判别模型是直接的,生成模型要通过概率)
hung-yi lee_p11_Logistic Regression(cont.)
问题是,两种方式找到的w和b一样吗?
答案是否定的。
在逻辑回归里面没有分布假设,生成模型里面假设成高斯分布、伯努利分布……

哪种方式找出的w和b更好?
来看结果
二维
hung-yi lee_p11_Logistic Regression(cont.)
七维
hung-yi lee_p11_Logistic Regression(cont.)
看到36:19

相关文章: