学习目标
学会集成学习方法,了解基本的深度学习的集成学习
集成学习方法
集成学习也是提高模型的预测精度的一种方法。常见的集成学习方法有Stacking,Bagging,Boosting,这些集成学习方法与具体的验证集的划分是紧密联系的。
个人理解:集成学习的概念就是通过将同样一份样本集复制多份,每份分割成不同训练集和不同验证集的样本。然后每份单独训练一个神经网络。最后用该多个神经网络的预测值求平均,来得到最终的结果。
深度学习中的集成学习方法
Dropout
这个是训练深度神经网络的时候的一种技巧,每次因为随机失活的结点是不同的,所以相当于训练了多个网络,最后测试的结果是多个网络联合作用的结果。可以有效的避免过拟合,同时增加预测的精度。
TTA(Test Time Augmentation)
测试集数据增广,也是常用的集成学习技巧。在测试的时候对数据进行数据扩增并进行重复预测,最后去预测的平均值。
集成学习需要注意的地方
- 集成学习只能在一定程度上提高精度(并不是灵丹妙药)。且训练的时候需要花费大量的时间。所以不建议一开始就使用集成学习,应该先提高单个模型的精度,再考虑使用集成学习。
- 具体的集成学习方法需要与验证集划分方法结合,Dropout和TTA可以在所有场景下起作用。