SVM - 能量与损失与正则化与成本函数之间的差异答案

【问题标题】：SVM - Difference between Energy vs Loss vs Regularization vs Cost functionSVM - 能量与损失与正则化与成本函数之间的差异
【发布时间】：2016-05-30 00:45:33
【问题描述】：

我正在阅读A Tutorial on Energy Based Learning，并试图了解上述所有这些术语在 SVM 上下文中的区别。 link 总结了损失、成本和目标函数之间的差异。根据我的理解，

目标函数：我们想要最小化的东西。例如，||w||^2 用于 SVM。

损失函数：预测和标签之间的惩罚，也相当于正则化项。例如 SVM 中的铰链损失函数。

成本函数：结合了目标函数和损失函数的一般公式。

现在，第一个链接表明铰链函数是max(0, m + E(W,Yi,Xi) - E(W,Y,X))，即它是能量项的函数。这是否意味着 SVM 的能量函数是 1 - y(wx + b) ？能量函数是损失函数的一部分吗？而损失函数+目标函数是成本函数的一部分？

这 4 个术语的简明摘要将极大地帮助我理解。另外，如果我的理解有误，请纠正我。这些术语听起来很混乱。谢谢！

【问题讨论】：

标签： machine-learning artificial-intelligence

【解决方案1】：

目标函数：我们想要最小化的东西。例如 ||w||^2 用于 SVM。

目标函数 - 顾名思义 - 优化目标。它可以是我们想要最小化（如成本函数）或最大化（如可能性）的东西。一般来说 - 衡量我们当前解决方案有多好的函数（通常通过返回一个实数）

损失函数：预测和标签之间的惩罚，也相当于正则化项。例如 SVM 中的铰链损失函数。

首先，在任何意义上，损失都不等同于正则化。损失函数是模型和真值之间的惩罚。这可以是类别条件分布与真实标签的预测，因此也可以是数据分布与经验样本，等等。

正则化

正则化是一个术语，惩罚，措施，应该是对过于复杂的模型的惩罚。在机器学习中，或者在处理估计器时通常在统计学中，你总是试图平衡两种错误来源——方差（来自过于复杂的模型、过度拟合）和偏差（来自过于简单的模型、糟糕的学习方法、欠拟合）。正则化是一种在优化过程中惩罚高方差模型以减少过度拟合的技术。换句话说 - 对于可以完美拟合训练集的技术，重要的是要有一个禁止它的度量，以保持泛化能力。

成本函数：结合了目标函数和损失函数的一般公式。

成本函数只是一个最小化的目标函数。它可以由一些损失函数和正则化器的聚合组成。

现在，第一个链接表明铰链函数是 max(0, m + E(W,Yi,Xi) - E(W,Y,X)) ，即它是能量项的函数。这是否意味着 SVM 的能量函数是 1 - y(wx + b) ？能量函数是损失函数的一部分吗？而损失函数+目标函数是成本函数的一部分？

铰链损失为max(0, 1 - y(<w,x> - b))。这里定义的不是真正的 SVM，而是一般因子图，我强烈建议从 basics 开始学习 ML，而不是从高级技术开始。如果没有很好地理解机器学习的基础知识，这篇论文将无法理解。

展示 SVM 和命名约定的示例

C SUM_i=1^N max(0, 1 - y_i(<w, x_i> - b)) + ||w||^2

            \__________________________/    \_____/
                         loss            regularization
\_________________________________________________/
            cost / objective function

【讨论】：

我想我很困惑，因为我总是看到 C 附加到铰链损失函数，而 C 被称为正则化参数。这不是使铰链函数成为正则化函数吗？不过谢谢你的回答！
我把 C 放在哪里重要吗？因为它所做的只是更加重视损失函数或正则化函数，而更加重视一个函数意味着对另一个函数的重要性降低......
另外，我想我不应该将概率图形模型中使用的术语与 svm 中的术语混淆。我正在阅读有关马尔可夫随机场的介绍，我被能量项迷住了。
你把C放在哪里都没关系，但我按照建议把它移到了更常见的地方。
无论C在哪里，“正则化”总是||w||^2。正则化是关于特定术语的含义，权重向量的范数是正则化的东西。 C, 只是对两个术语进行加权，您也可以使用 alpha 和 (1-alpha) 代替，这可能会让您更清楚地了解它的含义。