矩阵L2,1范数及矩阵L2,p范数的求导

常见的矩阵范数有L1，L2，∞范数，F范数和引申出的L2,1范数。而在机器学习的特征选择中，利用选择矩阵的范数对选择矩阵进行约束，即是正则化技术，是一种稀疏学习。

L0，L1向量范数

L0 范数

L0 范数是指向量v中的非0的个数，是一种度量向量稀疏性的表示方法。例如：v=[0,1,1,0,0,1]，那么∥v∥0=3。
L1 范数
L1 范数是向量中元素的绝对值之和，即∥v∥1=∑ni=1|vi|，也描述了向量的稀疏性。

从图中可以看出，p的取值在[0，1)之间时，范数不具有凸性。在实际的优化中，是无法进行优化的，因此，一般会将L0范数转化为L1范数，或者是其他可优化的范数。

矩阵的L1范数

为了度量稀疏矩阵的稀疏性，则定义矩阵的一种范数，为：

∥ W ∥ 1 = \sum i, j | W i, j |

即为矩阵所有元素的绝对值之和，能够描述接矩阵的稀疏性，但是在优化时，难度较大，是将情况向矩阵中元素尽可能是0的方向优化。

矩阵的L2,1范数

而为了进一步说明矩阵的稀疏性，来说明特征选择中矩阵L2,1范数的作用。

在特征选择中，通过稀疏化的特征选择矩阵来选取特征，即相当于是一种线性变换。

矩阵L2,1范数的求导

对于特征选择矩阵W，每一行（即行向量）用向量的2-范数描述，即wi=∑j|Wi,j|2−−−−−−−−√。那么，描述化之后即为向量w=[w1,w2,⋯,wd]T，那么对整个选择矩阵W还需要用范数对w进行描述，因为损失函数中的正则项，或称为正则化的项是一个数，而不是一个向量。因此再用1-范数对w描述，即是W的L2,1范数。