机器学习之贝叶斯分布与范数

每日小常识
范数，是具有“长度”概念的函数。
欧式范数，实际上是 l 2 l_2 l2-范数
∣ ∣ x ∣ ∣ = 3 2 + ( − 2 ) 2 + 1 2 = 3.742 ||x||=\sqrt{3^2+(-2)^2+1^2}=3.742 ∣∣x∣∣=32+(−2)2+12 =3.742
l p l_p lp-范数定义为
∣ ∣ x ∣ ∣ p = p ∑ i ∣ x i ∣ p ||x||_p=^p\sqrt{\sum_i|x_i|^p} ∣∣x∣∣p=pi∑∣xi∣p
例如 l 1 l_1 l1-范数定义为
l p l_p lp-范数定义为
∣ ∣ x ∣ ∣ p = ∑ i ∣ x i ∣ ||x||_p=\sum_i|x_i| ∣∣x∣∣p=i∑∣xi∣
l 0 l_0 l0-范数表示非零项的个数。
实际上我们加的正则项是 l 2 l_2 l2-范数的。

一般迭代前后步骤的差值称为范数，用范数表示其大小。
常用的是二范数，差值越小表示越逼近实际值，可以认为达到要求的精度，收敛。范数本质是距离，存在的意义是为了实现比较

和向量的范数一样，矩阵也有范数，假设矩阵A的大小为m∗n，即m行n列。
∣ ∣ A ∣ ∣ 1 = m a x j = 1 n ∑ i = 1 m ∣ a i j ∣ ||A||_1=max^n_{j=1}\sum^m_{i=1}|a_{ij}| ∣∣A∣∣1=maxj=1ni=1∑m∣aij∣
先求每行的总和，最后找这几行中最大的那个总和。
2-范数，又名谱范数
∣ ∣ A ∣ ∣ 2 = m a x ( λ i ) ||A||_2=\sqrt{max(\lambda_i)} ∣∣A∣∣2=max(λi)
其中， λ i \lambda_i λi是 A T A A^TA ATA的特征值。就是最大特征值的开平方。
F-范数，计算方式为矩阵元素的绝对值的平方和再开方。
无穷范数，又名行和范数，即矩阵行向量中绝对值之和的最大值。

范式球(norm ball)，为了便于可视化，我们考虑两维的情况，在(w1, w2)平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解：
机器学习之贝叶斯分布与范数
可以看到，两个轴是两个参数。两个参数被限制在了原点附近，这很好理解，上面的等高线圆表明在那个地方拟合度最好(仅仅拟合测试集，果不其然有过拟合)。就这么回事了。

再者说，什么是线性回归，指的是 w w w，还是 x x x？实际上指的是 x x x，因为 w w w永远是线性的。多项式回归模型是线性回归模型的一种，此时回归函数关于回归系数是线性的。注意这可是百科上说的。
如果将x2理解为一个特征，将x理解为另外一个特征,换句话说，本来我们的样本只有一个特征x，现在我们把他看成有两个特征的一个数据集。多了一个特征x2，那么从这个角度来看，这个式子依旧是一个线性回归的式子，但是从x的角度来看，他就是一个二次的方程。