每日小常识
范数,是具有“长度”概念的函数。
欧式范数,实际上是 l 2 l_2 l2-范数
∣ ∣ x ∣ ∣ = 3 2 + ( − 2 ) 2 + 1 2 = 3.742 ||x||=\sqrt{3^2+(-2)^2+1^2}=3.742 x=32+(2)2+12 =3.742
l p l_p lp-范数定义为
∣ ∣ x ∣ ∣ p = p ∑ i ∣ x i ∣ p ||x||_p=^p\sqrt{\sum_i|x_i|^p} xp=pixip
例如 l 1 l_1 l1-范数定义为
l p l_p lp-范数定义为
∣ ∣ x ∣ ∣ p = ∑ i ∣ x i ∣ ||x||_p=\sum_i|x_i| xp=ixi
l 0 l_0 l0-范数表示非零项的个数。
实际上我们加的正则项是 l 2 l_2 l2-范数的。

一般迭代前后步骤的差值称为范数,用范数表示其大小。
常用的是二范数,差值越小表示越逼近实际值,可以认为达到要求的精度,收敛。范数本质是距离,存在的意义是为了实现比较

和向量的范数一样,矩阵也有范数,假设矩阵A的大小为m∗n,即m行n列。
∣ ∣ A ∣ ∣ 1 = m a x j = 1 n ∑ i = 1 m ∣ a i j ∣ ||A||_1=max^n_{j=1}\sum^m_{i=1}|a_{ij}| A1=maxj=1ni=1maij
先求每行的总和,最后找这几行中最大的那个总和。
2-范数,又名谱范数
∣ ∣ A ∣ ∣ 2 = m a x ( λ i ) ||A||_2=\sqrt{max(\lambda_i)} A2=max(λi)
其中, λ i \lambda_i λi A T A A^TA ATA的特征值。就是最大特征值的开平方。
F-范数,计算方式为矩阵元素的绝对值的平方和再开方。
无穷范数,又名行和范数,即矩阵行向量中绝对值之和的最大值。

范式球(norm ball),为了便于可视化,我们考虑两维的情况,在(w1, w2)平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解:
机器学习 之 贝叶斯分布与范数
可以看到,两个轴是两个参数。两个参数被限制在了原点附近,这很好理解,上面的等高线圆表明在那个地方拟合度最好(仅仅拟合测试集,果不其然有过拟合)。就这么回事了。

再者说,什么是线性回归,指的是 w w w,还是 x x x?实际上指的是 x x x,因为 w w w永远是线性的。多项式回归模型是线性回归模型的一种,此时回归函数关于回归系数是线性的。注意这可是百科上说的。
如果将x2理解为一个特征,将x理解为另外一个特征,换句话说,本来我们的样本只有一个特征x,现在我们把他看成有两个特征的一个数据集。多了一个特征x2,那么从这个角度来看,这个式子依旧是一个线性回归的式子,但是从x的角度来看,他就是一个二次的方程。

相关文章:

  • 2022-01-20
  • 2021-09-30
  • 2022-01-13
  • 2021-05-23
  • 2022-01-12
  • 2022-12-23
  • 2021-12-31
  • 2022-12-23
猜你喜欢
  • 2021-12-10
  • 2021-07-14
  • 2021-07-29
  • 2021-12-15
  • 2021-06-05
  • 2021-09-10
相关资源
相似解决方案