[机器学习] 概念解析：从经验风险、结构风险到代价函数、损失函数、目标函数

文章目录

经验风险和结构风险

经验风险
结构风险

代价函数、损失函数、目标函数的定义

损失函数和代价函数
目标函数

经验风险和结构风险

借用 Andrew Ng Machine Learning 公开课视频一张图，举个例子：

[机器学习] 概念解析：从经验风险、结构风险到代价函数、损失函数、目标函数

在上式中，记Size为 $X$ ，Price为 $Y$ ，三种拟合的函数分别为 $f_1(X)$ 、 $f_2(X)$ 、 $f_3(X)$ 。

经验风险

为了表示我们拟合的好坏，我们就用一个函数来度量拟合的程度，比如均方误差函数：
$L(Y,f(X)) = (Y-f(X))^2 \tag{1}$
经验风险是模型关于训练集的平均损失，定义如下：
$R_{emp}=\frac{1}{N}\sum_{i=1}^{N}L(y^{(i)},f(x^{(i)})) \tag{2}$
以(2)式和上图，可以得到 $L(Y,f_1(X))$ > $L(Y,f_3(X))$ > $L(Y,f_3(X))$ ，也就是经验风险 $f_1(X)$ > $f_2(X)$ > $f_3(X)$ 。训练集样本代表已经获得的信息，作为已经知道的经验。经验风险最小，等价于模型对训练集样本拟合最贴切。

极大似然估计（MLE）就是经验风险最小化的一个例子。

结构风险

结构风险其实就是过拟合的风险。原因来说的话就是模型太复杂了。显然对于结构风险来说， $f_1(X)$ < $f_2(X)$ < $f_3(X)$ 。结构风险最小化。这个时候就定义了一个函数 $J(f)$ ，来度量模型的复杂度，也叫正则化(regularization) 。常用的有 $L_1$ ， $L_2$ 范数。

代价函数、损失函数、目标函数的定义

损失函数和代价函数

代价函数和损失函数是一回事，表示样本水平上模型结果于训练样本的平均误差。

比如吴恩达机器学习课程中，对于logistic回归的代价函数 (cost function)，定义如下：
[机器学习] 概念解析：从经验风险、结构风险到代价函数、损失函数、目标函数
可以看到是平均误差。

目标函数

目标函数是最终需要优化的函数，是有约束条件下的损失函数的最小化。换句话说，包括经验损失和结构损失，可以表示为：
$obj=loss+\Omega$
其中：

$loss$ ：损失函数或者代价函数
$\Omega$ ：正则化项

目标函数的目的是最优化经验风险和结构风险，即：
$min[\frac{1}{N}\sum_{i=1}^{N}L(y^{(i)},f(x^{(i)}))+\lambda J(f)]$
比如吴恩达机器学习课程中，对logistic回归给出的目标函数为：
[机器学习] 概念解析：从经验风险、结构风险到代价函数、损失函数、目标函数