太懒了 直接把周老师的书内容整上来吧
首先它的采样是有放回的采样,称为自助采样 booststrap 很显然再ADABOOST里面,我们发现各个学习器之间其实是很不独立的,而bagging 要做的就是加大独立性,所谓的和而不同。它有一个优势就是可以并行训练因此速度很快,速度和单个的及学习器的训练速度一样的。
相比于ADABOOST 它的另一个优势就是可以不加修改的进行多分类训练,而采样剩余的36.8%的样本很适合做验证集进行包外估计,每次输入一个样本X如果这个X没有被第t个学习器学习过,那么就测出结果,然后把所有没有用X 训练过的学习器都测一遍 然后相加。 把所有的X测一遍就可以算泛化误差了。
二:随机森林RF:其实就是以决策树作为基学习器的bagging ,只不过它还加了一个特性就是,不但每次训练学习器都回先采样,而且还会从样本的多个特征中随机挑选K个特征用于学习,假设特征数是d 那么推荐的K值是 logd ,
RF的基学习器的多样性不但来自于样本,还来自于特征选取,这就使得最终的集成的模型的泛化性能可以通过基学习器之间的差异进一步提升。
我们需要明白的是 这种基学习器个体的差异,使得样本的泛化性能很好,同时模型受样本的影响很小,因此bagging模型的主要关注点在于降低方差。