周志华-机器学习-第三章线性模型-学习总结
这篇博客以我制作的思维导图为主要介绍,再加上一些文字解释帮助读者理解
一、大体脉络
线性模型这章主要讲述了几个点:线性回归、对数几率回归、线性判别分析LDA、多分类学习和类别不平衡问题。
二、线性模型的基本形式
三、线性回归
问题描述
一元线性回归
只有一个属性值w,函数式为y=wx + b
所谓线性回归就是用已有的数据集来拟合一条线,从而达到获得预测值的目的,而拟合的原理就是使预测值f(x)和实际值y之间达到均方误差最小化
通过参数估计求得了唯一属性w和b的最优解后就能作出一元线性回归曲线了
多元线性回归
一个事物注定有许许多多的属性值w1、w2、w3…等等,因此属性值最优解也注定不是在一个碗状函数的最小值处取得,而是有多个最小值,只能取得局部最优
多元线性回归有两种方法,一种是梯度下降法,通过不断的一点点同时改变多个属性值,最终达到局部最优,使得预测值与实际值之间的均方误差最小化。另一种是正规方程,书上介绍了这种
补充一下关于梯度下降法和正规方程的优劣性比较
对数线性回归 log-linear regression
由于有时候直线方程并不能很好的拟合,而对数曲线可以,因此可以进行一些小小的转换
广义线性模型 generalize linear model
更普遍的情况,用一个g(x)套上进行转换
四、对数几率回归 Logistic regression
问题描述
二分类任务
关系函数
函数式
本质
优点
五、线性判别分析LDA
基本思想
六、多分类学习
七、类别不平衡问题
如果训练集中正、反例的数目不同,假设训练集是真实样本总体的无偏采样,观测几率代表了真实几率
如果上面假设不成立,无法基于训练集类别数量判断真实几率