一种最实用而且最有效的模型 - ”集成模型(ensemble model)” 对于几乎所有的分类问题(除了图像识别,因为对于图像识别问题,目前深度学习是标配),集成模型成为了我们的首选。
比如构建一个评分卡系统,业界的标配是GBDT或者XGBoost等集成模型,主要因为它的效果确实好,而且稳定。还有一点是这些模型的可解释性也很好,不像深度学习模型就像个黑盒子。
可解释性对于工业界应用来说尤其重要。 比如一个模型出错了,我们希望第一时间能够找出问题的根源。但如果模型的可解释性比较差,则很难及时把问题定位出来。
举个例子,金融类的应用是直接跟金钱挂钩的,一旦出了问题之后后果不堪设想。所以模型上线之前需要做大量的测试,而且提前要清楚地了解模型里的每个细节以及可能出错之后带来的后果。
那为什么集成模型的可解释性好呢? 这个其实不难理解,因为随机森林或者提升树模型其实是基于决策树的,而且我们知道决策树模型的可解释性本来就很好。集成模型可以简单理解成决策树的集合!
除了工业界应用,在各类数据竞赛上,集成模型也扮演着极其重要的角色。对于大部分的竞赛,使用集成模型是通向第一名的最快的捷径。当然,也离不开特征工程的部分。
集成模型的思想:多个人一起决策要优于一个人单干。当然也有可能存在一些特别牛逼的人要远远胜于其他所有人的智慧之和,但毕竟是特例。至少多听取不同的建议会让自己少犯一些愚蠢的错误。
那如何去构建一个集成模型呢? 有两种不同的方法,分别是Bagging和Boosting。
agging和Boosting是集成模型的两大类,拥有不一样的训练方式,而且有着很大的区别。Bagging里最经典的就是随机森林模型。 对于Boosting,目前使用最多的包括GBDT, XGBoost。它俩之间没有本质的区别,只是在实现上和一些细节上不同而已。
Bagging训练完之后,每一个模型都可以参与决策。最终的预测结果等同于做了平均的操作,这一点跟Boosting有着很大的区别。
在训练模型时,我们的目的是要训练出泛化能力强的模型。
为了一个模型具有较强的泛化能力,我们需要解决模型的过拟合现象。
答案是“不稳定的模型!”,也就是训练出来的模型放在训练数据上表现的特好,但放在真实的线上环境时就不行了。 就好比一个学生平时成绩非常好,但一旦关键时刻就不灵了,这种现象可以笼统地理解为不稳定。
所以我们的目的是希望训练出一个稳定的模型。
在统计学里,方差和标准差是可以用来表示稳定性的。稳定性越高,说明方差或者标准差越小。
通过集成模型做预测,它会减少方差(或者标准差),即可以认为模型稳定。
多个模型共同预测确实会降低方差,也就意味着提高模型的稳定性。但准确率是不是也会保证提升呢?这个其实不好说,但通常来说集成模型的准确率还是要高于其他简单模型的。
随机森林里有两个关键词,一个叫“随机”,一个叫“森林”。森林比较好理解,就是很多树的集合,也说明了模型本身的特点。
随机森林的预测过程无非是多棵决策树共同作出决策。比如对于分类型问题,可以通过投票的方式; 对于回归问题,则可以采用平均法则。
如何构造出多棵决策树?
构造随机森林时需要考虑的点:
- 我们只有一份训练数据
- 确保多颗决策树要优于单颗决策树
如果我们得出来的多棵决策树之间相关性比较大,其实做不到增加稳定性的作用,至少效果不会好。
只有多样性(Diversity)才能保证随机森林的效果!这一点非常重要。
如何构造出很多具备多样性的决策树?答案在于“随机“!
随机森林的多样性:
- 训练样本的随机化
- 特征选择时的随机化
通过两个方面的随机操作,我们可以得出具备多样性的决策树。这也是为什么我们把它叫作“随机”森林的主要原因。
第一种随机化来自于样本的采样,也就是说每一棵决策树来自于不同的训练样本。
采样采取Bootstrap方法:一种抽样的方式,可以重复抽取同样的样本(有放回采样)
除了样本的随机化,我们在构造每一棵决策树的时候也会随机化特征。回顾之前决策树模型,当我们要选择当前最好的特征作为根节点的时候,我们把所有可能的特征全部尝试了一遍然后选了其中最好的。
但在随机森林里,选择特征的时候首先会做采样,比如从100个特征里选择10个,然后从10个当中选择最好的特征作为当前的根节点。 所以,每一次做分裂(split)的时候先要做特征的采样,然后一一做比较,最后选择效果最好的。
这两个方面的随机化可以保证带来多样化的决策树。当然除了这两个,还可以设计更多的随机化,但主要还是以这两个为主。
构建完随机森林之后,我们即可以对新的样本做预测了! 预测过程类似于投票的过程。
随机森林和决策树构建过程的主要区别在于数据的采样上,其他细节上大同小异。
随机森林模型本身对避免过拟合现象是有着不错的表现的,但这并不代表随机森林就不会过拟合。
任何的一个机器学习模型都存着过拟合的风险。对于这个问题,目前主流的方法还是调参。
参数n_estimators表示的是使用多棵树。数量越多,一般情况下越稳定,但时间成本也会变高。
参数criterion指的是用什么样的评估方式去选择当前根节点的特征。 选项有两个分别代表信息熵(entropy)和gini
参数max_depth值的是每一棵决策树的深度,它可以保证训练出来树的深度不超过某一个值。通过这种方式,我们可以从局部的角度避免过拟合现象。
另外参数min_samples_split和min_samples_leaf控制叶节点样本的个数。
这里特别要说明的参数是max_features,这个值表示的是:每一次要做分裂(split)的时候随机选出来的特征个数。