每日小常识
范数,是具有“长度”概念的函数。
欧式范数,实际上是
l
2
l_2
l2-范数
∣
∣
x
∣
∣
=
3
2
+
(
−
2
)
2
+
1
2
=
3.742
||x||=\sqrt{3^2+(-2)^2+1^2}=3.742
∣∣x∣∣=32+(−2)2+12
=3.742
l
p
l_p
lp-范数定义为
∣
∣
x
∣
∣
p
=
p
∑
i
∣
x
i
∣
p
||x||_p=^p\sqrt{\sum_i|x_i|^p}
∣∣x∣∣p=pi∑∣xi∣p
例如
l
1
l_1
l1-范数定义为
l
p
l_p
lp-范数定义为
∣
∣
x
∣
∣
p
=
∑
i
∣
x
i
∣
||x||_p=\sum_i|x_i|
∣∣x∣∣p=i∑∣xi∣
l
0
l_0
l0-范数表示非零项的个数。
实际上我们加的正则项是
l
2
l_2
l2-范数的。
一般迭代前后步骤的差值称为范数,用范数表示其大小。
常用的是二范数,差值越小表示越逼近实际值,可以认为达到要求的精度,收敛。范数本质是距离,存在的意义是为了实现比较
和向量的范数一样,矩阵也有范数,假设矩阵A的大小为m∗n,即m行n列。
∣
∣
A
∣
∣
1
=
m
a
x
j
=
1
n
∑
i
=
1
m
∣
a
i
j
∣
||A||_1=max^n_{j=1}\sum^m_{i=1}|a_{ij}|
∣∣A∣∣1=maxj=1ni=1∑m∣aij∣
先求每行的总和,最后找这几行中最大的那个总和。
2-范数,又名谱范数
∣
∣
A
∣
∣
2
=
m
a
x
(
λ
i
)
||A||_2=\sqrt{max(\lambda_i)}
∣∣A∣∣2=max(λi)
其中,
λ
i
\lambda_i
λi是
A
T
A
A^TA
ATA的特征值。就是最大特征值的开平方。
F-范数,计算方式为矩阵元素的绝对值的平方和再开方。
无穷范数,又名行和范数,即矩阵行向量中绝对值之和的最大值。
范式球(norm ball),为了便于可视化,我们考虑两维的情况,在(w1, w2)平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解:
可以看到,两个轴是两个参数。两个参数被限制在了原点附近,这很好理解,上面的等高线圆表明在那个地方拟合度最好(仅仅拟合测试集,果不其然有过拟合)。就这么回事了。
再者说,什么是线性回归,指的是
w
w
w,还是
x
x
x?实际上指的是
x
x
x,因为
w
w
w永远是线性的。多项式回归模型是线性回归模型的一种,此时回归函数关于回归系数是线性的。注意这可是百科上说的。
如果将x2理解为一个特征,将x理解为另外一个特征,换句话说,本来我们的样本只有一个特征x,现在我们把他看成有两个特征的一个数据集。多了一个特征x2,那么从这个角度来看,这个式子依旧是一个线性回归的式子,但是从x的角度来看,他就是一个二次的方程。