Ensembles for features election:A review and future trends
标题Ensembles for features election:A review and future trends
集成学习:调查和未来趋势(综述)
本篇论文解决的问题:
1)集成学习、特征选择所需要的概念(第一部分,其余部分也有涉及);
2)特征选择的方法种类,特征子集集成的方法(二三部分);
3)如何从特征选择的多样性、稳定性等方面评估集成的性能(第四、五部分);
4)特征选择的研究进展和未来的发展趋势(第七部分)。
第一部分
集成学习:基于组合多个模型而不是单个模型来解决特定的问题,主要是解决分类问题。目前集成学习最流行的两种方法为:bagging、boosting两种方法都是基于训练集来引入多样性的。 区别:bagging:对数据进行替换后对数据进行随机采样;boosting:对加权数据进行替换后对数据进行随机采样。
特征选择的两种典型分类方法:1)它取决于特征选择器的结果:是否根据相关性返回相关特征子集或对所有的特征进行排序,后一种需要建立一个阈值以减小问题的维数;2)根据特征选择的算法和用于推断模型的归纳学习方法之间的关系分为三种:filters,wrappers,嵌入式的方法。
第二部分
考虑了集成范式与特征选择之间的关系给出了两种不同的方案:1)使用特征选择预处理,以产生后续集成方法所需的多样性;2)使用特征选择器的集合来提高过程的稳定性。
关于特征选择的集成学习可能会根据有关上述任何一个或多个方面的不同标准进行分类,但是最简单的划分是关于所使用的基本选择器的类型。如果基本选择器是同一种类,则该集合称为同构;否则,集合是异构的。在同构方法中,使用相同的特征选择方法,但是具有不同的训练数据子集。在异构方法,可以应用多种不同的特征选择方法,但是要在相同的训练数据上进行,如图所示。
第三部分
对输出进行集成学习
让我们假设我们有一个分类问题,其中实例x被分配给问题的C个不同的类之一。考虑我们有N个分类器,这些分类器将导致N个输出做出决定。当分类器提供一定程度的确定性时,后验概率可以估计为,其中y i被计算为分类器i的响应。现在,让我们将y ij(x)表示为实例x的类j中分类器i的输出,并假设输出y i进行了归一化。一些流行的决策规则可以定义如下:
特征子集的选择
我们需要在分类之前将它们组合起来(假设分类是我们系统的最终目标)。组合所选要素子集的最典型方法是计算它们的交点和并集。相交仅包括选择所有要素选择器选择的那些要素。联合包括组合所有至少由一个特征选择器选择的特征。与相交相反,它甚至可以选择整个功能集。与交点相比,这种方法往往会产生更好的结果,但是以降低特征数量为代价的。一种更复杂的技术是使用分类精度来组合由不同选择器返回的特征子集。一种简单的方法是仅在有助于提高分类性能的情况下才将特征的子集包括到最终选择。对于这些特征子集的集成学习的规则有以下的方法:
第四部分
评价标准:
、