吴恩达机器学习系列课程笔记——代价函数

该系列笔记内容是楼主在观看课程时记录的，其中图片是视频中ppt的截图，内容仅供参考，有问题欢迎大家指出。

常见的代价函数

代价函数（cost fuction，也称损失函数或优化目标）是出现在监督学习模型中，在已知的标签y的情况下，根据h(x)得到的预测值计算学习算法要到达真实情况所需要付出的代价
P. S. 不熟悉常见监督学习模型可以看吴恩达机器学习系列课程笔记——监督学习常见模型
通过最小化代价函数可以得到算法的最优解，从而训练更有效的模型
其中代价函数被期望得到的是凸函数（convex function，也称单弓形函数），而不是非凸函数（non-convex），因为后者拥有众多局部最低点，导致算法可能无法获得全局最优解

非凸函数和凸函数

1. 平方误差代价函数（Square Error Cost Function）

该代价函数常在回归问题中使用

对于单变量线性回归模型来说，代价函数只考虑特征θ₀（偏差）和θ₁，则其公式为 $J(\theta_0, \theta_1)=\frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$
其中m为样本数，平方差公式乘以系数 $\frac{1}{m}$ 是为了使代价函数不依赖训练集中元素的数量，而乘以常量 $\frac{1}{2}$ 是为了方便后续最小化代价函数的求导
简化参数，将偏差θ₀设为0，则单变量线性回归模型拟合的曲线为经过原点且斜率为θ₁的直线，其代价函数则是一元二次曲线

简化参数后的假设函数与代价函数示例图

二元变量的线性回归模型的代价函数如下图所示，同样也是凸函数

二维代价函数立体图

为方便理解可以通过绘制等高线图观察平方差代价函数，如下图所示

等高线示意图

2. 逻辑回归代价函数（Logistic Regression Cost Function）

该代价函数常用于逻辑回归模型

其函数本质是统计学中的极大似然法，公式为 $J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log (1-h_\theta(x^{(i)}))]$
感兴趣的同学可以看逻辑回归代价函数的详细推导

3. 神经网络代价函数（Neural Network Cost Function）

该代价函数常用于神经网络模型

该代价函数与逻辑回归代价函数相似，唯一有区别的是神经网络代价函数还要求K个输出单元的和，即计算每个类别的逻辑回归代价，其方程如下图所示

逻辑回归代价函数和神经网络代价函数的区别

值得注意的是，神经网络代价函数是非凸函数，即最优化算法可能会得到局部最小值而非全局的最优解

4. 支持向量机代价函数（SVM Cost Function）

该代价函数常用于支持向量机（SVM）模型

其代价函数与逻辑回归代价函数相似，但是由于支持向量机模型的假设函数并非概率而是类别，因此公式中两项不共存，导致曲线没有弧度，如下图粉线所示

SVM代价函数与逻辑回归代价函数

通过修改逻辑回归代价函数，用常量C替换了原来第一项的系数 $\frac{1}{m}$ ，并去掉了正则化系数的 $\frac{\lambda}{m}$ ，得到了SVM代价函数

SVM代价函数的演化

与考虑正则化的逻辑回归代价函数不同的是，SVM代价函数更关前一项的比重，后者的系数为定值 $\frac{1}{2}$

小插曲：为什么称SVM为大间距分类器？

假设代价函数中常量C很大，θ₀=0（即决策边界穿过原点），总共两个特征θ₁和θ₂；下图为优化目标和投影的解释，其中p⁽ⁱ⁾是指x⁽ⁱ⁾在||θ||上的投影。

优化目标和投影解释图

优化目标是使得θ_j²最小，因此||θ||要足够小，从而导致p⁽ⁱ⁾的绝对值要足够大才能满足两者的绝对值乘积大于1，这就使得决策边界与样本间距离最远

决策边界到样本间距离最远

在实际情况下，SVM代价函数公式中第二项可以简化为Θ^TMΘ，这样对大数据处理更有效

化简SVM代价函数

4.1 偏差方差折中（Bias Variance Trade-off）

代价函数中常量C过大会导致低偏差高方差，而太小会导致低方差高偏差
高斯核函数中的σ²偏大时新特征表现出更平滑的曲线，导致低偏差高方差；其值偏小时新特征表现出更陡峭的曲线，导致低方差高偏差

SVM参数的影响

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode