特征归一化——l2归一化的优势答案

【问题标题】：feature normalization- advantage of l2 normalization特征归一化——l2归一化的优势
【发布时间】：2015-11-23 10:20:02
【问题描述】：

特征通常在分类之前进行归一化。

文献中通常使用L1和L2归一化。

有人可以评论一下 L2 范数（或 L1 范数）与 L1 范数（或 L2 范数）相比的优势吗？

【问题讨论】：

计算 L2 范数的导数更容易，因为它平方每个向量分量（与使用绝对值的 L1 相比）。
你可以看看 math.stachexchange math.stackexchange.com/questions/384003/l1-norm-and-l2-norm

【解决方案1】：

L2 相对于 L1 规范的优势

正如 aleju 在 cmets 中所述，L2 范数的推导很容易计算。因此，使用基于梯度的学习方法也很容易。
L2 正则化优化平均成本（而 L1 降低了中位数 explanation) 这通常用作性能度量。如果您知道自己没有任何异常值并且希望将总体误差保持在较小的水平，这尤其有用。
解决方案更有可能是唯一的。这与前一点有关：虽然平均值是单个值，但中位数可能位于两点之间的区间内，因此不是唯一的。
虽然 L1 正则化可以为您提供稀疏系数向量，但 L2 的非稀疏性可以提高您的预测性能（因为您可以利用更多特征而不是简单地忽略它们）。
L2 在旋转下是不变的。如果您有一个由空间中的点组成的数据集并应用旋转，您仍然会得到相同的结果（即点之间的距离保持不变）。

L1 相对于 L2 规范的优势

L1 范数更喜欢稀疏系数向量。 (explanation on Quora) 这意味着 L1 范数执行特征选择，您可以删除系数为 0 的所有特征。减少维度几乎在所有情况下都有用。
L1 范数优化了中位数。因此，L1 范数对异常值不敏感。

更多来源：

【讨论】：

【解决方案2】：

如果您正在处理逆问题，L1 将返回一个更稀疏的矩阵，而 L2 将返回一个更相关的矩阵。

【讨论】：