山书学习第三次笔记

过拟合、欠拟合及其解决方案

当我们训练一个模型时，一般会得到两个结果：好模型，坏模型。
坏模型的意义就是那些不能得出正确结果的模型。
而得到坏模型的原因有两：
1.欠拟合；
2.过拟合；

现象表现为：训练时得到的结果差，测试时，得到的结果也差。
造成这种情况的原因，在于训练的次数过少，或是训练的样本过少。

与之对应的解决方案，训练的次数更多点就是了。

结果现象表现为：训练时得到的结果极高，测试时，得到的结果相对差得有点多。
函数现象表现为：过于贴合训练样本，以至于会让一些特殊的样本占了主流。
造成这种情况的原因，在于训练的次数过多。

解决方案：
1.权重衰减。
2.dropout。

如上文所说，过拟合是过于贴合样本。导致那个特殊的样本占了主流。那么我们要做的就是减小那个特殊样本造成的影响。

而在数据上，当一个特殊样本造成的影响特别大的时候，超参数所表现出来的特征是：超参数的绝对值会变得有点大。
所以为了把超参数变得更小，只需要在损失函数当中，把这个东西考虑进去。
如：
山书学习第三次笔记

俗称‘随机丢弃’，随机丢弃，就有可能把那个过大的参数给丢弃了，而得到正确的模型。

梯度是用来求导的，用于训练模型。
但是如果这个梯度特别小，接近于0，那么这个模型就无法继续训练。（梯度消失）
如果这个梯度绝对值特别大，那么这个模型，就很难训练好。（梯度爆炸）

层数特别深的时候就容易两者都出现。

在构造模型时，选择合适的深度。

山书学习第三次笔记

山书学习第三次笔记

山书学习第三次笔记

这三者的都是单个网络，多个网络平行放在一起，叫做层。叠在一起之后，就有了深度。

RNN是最基本的。但有个缺点：容易忘掉很久之前的一些记忆。

LSTM和GRU则能避免这个缺点。