过拟合、欠拟合及其解决方案

过拟合、欠拟合的意义

当我们训练一个模型时,一般会得到两个结果:好模型,坏模型。
坏模型的意义就是那些不能得出正确结果的模型。
而得到坏模型的原因有两:
1.欠拟合;
2.过拟合;

欠拟合

现象表现为:训练时得到的结果,测试时,得到的结果也
造成这种情况的原因,在于训练的次数过少,或是训练的样本过少。

与之对应的解决方案,训练的次数更多点就是了。

过拟合

结果现象表现为:训练时得到的结果极高,测试时,得到的结果相对差得有点多
函数现象表现为:过于贴合训练样本,以至于会让一些特殊的样本占了主流。
造成这种情况的原因,在于训练的次数过多。

解决方案
1.权重衰减。
2.dropout。

解决方案

权重衰减

如上文所说,过拟合是过于贴合样本。导致那个特殊的样本占了主流。那么我们要做的就是减小那个特殊样本造成的影响

而在数据上,当一个特殊样本造成的影响特别大的时候,超参数所表现出来的特征是:超参数的绝对值会变得有点大。
所以为了把超参数变得更小,只需要在损失函数当中,把这个东西考虑进去。
如:
山书学习第三次笔记

dropout

俗称‘随机丢弃’,随机丢弃,就有可能把那个过大的参数给丢弃了,而得到正确的模型。

梯度消失、梯度爆炸

梯度意义

梯度是用来求导的,用于训练模型。
但是如果这个梯度特别小,接近于0,那么这个模型就无法继续训练。(梯度消失)
如果这个梯度绝对值特别大,那么这个模型,就很难训练好。(梯度爆炸)

出现的条件

层数特别深的时候就容易两者都出现。

结论

在构造模型时,选择合适的深度。

深度卷积神经网络(AlexNet)

RNN

山书学习第三次笔记

GRU

山书学习第三次笔记

LSTM

山书学习第三次笔记

这三者的都是单个网络,多个网络平行放在一起,叫做层。叠在一起之后,就有了深度。

RNN是最基本的。但有个缺点:容易忘掉很久之前的一些记忆。

LSTM和GRU则能避免这个缺点。

相关文章: