过拟合特征值特征向量

过拟合,欠拟合

一.什么是过拟合,欠拟合

1.过拟合:对训练集特征的过度学习,仅仅适合此训练集,在泛化使用的时候不能用于其他的数据集判断.
2.欠拟合:对于训练集特征学习的欠缺,同样不适用于其他数据集的判断
.

用一个表格来解释过拟合,欠拟合

训练集上的表现	测试集上的表现	结论
不好	不好	欠拟合
好	不好	过拟合
好	好	适度拟合

二.过拟合的产生

训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度；
训练集和测试集特征分布不一致；
样本中的噪音数据干扰过大，大到模型过分记住了噪音特征，导致多余的记录；
权值学习迭代次数足够多(Overtraining)，拟合了训练数据中的噪声和训练样例中没有代表性的特征。

总结来说主要原因在于:1训练数据中存在噪音 2.训练集太少

三.处理过拟合

1.丢弃一些不能帮助正确预测的特征,减小模型的复杂度(减小宽度和减小深度)

2.增加训练集的数量,减少过度学习的概率

3.正则化,保留所有的特征,减少参数的大小,或则使用一些模型选择的算法

正则化的两种方式

1.L₁正则化(稀疏规则算子)
过拟合特征值特征向量
2.L₂正则化(岭回归)(权值衰减)

范数的定义

过拟合特征值特征向量
L₀范数指向量中非零元素的个数
L₁范数:向量中每个元素绝对值的和
L₂范数:向量元素绝对值的平方和再开平方

L₁和L₂的区别

1.L₁是模型的各个参数的绝对值之和
2.L₂是模型各个参数的平方和的开方值
3.L₁会趋向于产量少量的特征,而其他的特征都是0,因为最优的参数值很大概率会出现在坐标轴上,导致某一维的权重为0,产生稀疏权重矩阵.
4.L₂会选择更多的特征,这些特征都会接近于0,最优的参数值很小概率出现在坐标轴上,因此每一维都不会是0,最小化||W||时,就会使每一次趋近于0.

总体上来说,运用的最多的是L₁正则方法,因为其方法容易理解.其次是L₂正则方法,它使得目标函数变为凸函数，梯度下降法和L-BFGS都能收敛到全局最优解。

特征值和特征向量

特征向量:设A为n阶实方阵，如果存在某个数m及某个n维非零列向量x，使得 Ax=mx，则称是方阵A的一个特征值，是方阵A的属于特征值的一个特征向量。

特征值:设 A 是n阶方阵，如果存在数m和非零n维列向量 x，使得 Ax=mx 成立，则称 m 是A的一个特征值

总结:
特征值主要使特征向量进行矩阵变换
特征向量A(2,2)
特征值m(1,3)
Am(2,6)
过拟合特征值特征向量