包装方法中的特征选择和信息过滤？答案

【问题标题】：feature selection in wrapper method and information filtering?包装方法中的特征选择和信息过滤？
【发布时间】：2015-06-03 15:31:06
【问题描述】：

我看到一个知名人士Tom Mitchell在中老年考试中的例子，如下：

考虑在总共有 1000 个特征的情况下学习分类器。其中有 50 篇确实提供了有关课堂的信息。另外 50 个功能是前 50 个特征的直接副本。最后的 900 个特征不是内容丰富。假设有足够的数据来可靠地评估有用性特征是，并且特征选择方法使用良好阈值。

How many features will be selected by mutual information ﬁltering?

解决方案：100

How many features will be selected by a wrapper method?

解决方案：50

我的挑战是如何实现这些解决方案？我做了很多尝试，但无法理解这背后的想法。

【问题讨论】：

标签： machine-learning classification data-mining pattern-recognition feature-selection

【解决方案1】：

How many features will be selected by mutual information ﬁltering?

互信息特征选择独立评估每个特征的候选资格。由于本质上有 100 个特征是真正提供信息的，因此我们将通过互信息过滤得到 100 个特征。

How many features will be selected by a wrapper method?

包装器方法评估特征子集，因此它考虑了特征之间的交互。由于 50 个特征是其他 50 个特征的直接副本，因此包装方法能够发现以前 50 个特征为条件，第二组 50 个特征没有添加任何 额外信息 完全没有。过滤后我们最终得到了 50 个特征。假设第一组 50 个特征是A1, A2, ..., A50，50 个特征的副本是C1, C2, ..., C50。所选特征的最终结果可能如下所示：

A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.

因此，每个唯一特征应该只出现一次（来自A 的特征集或C 的特征集）。

【讨论】：

【解决方案2】：

互信息过滤会选择多少特征？

如果按照问题描述，我们应该只选择了 50 个特征。但是这种过滤是基于与要预测的变量的相关性。而且，互信息过滤的主要缺点之一是，它们倾向于选择冗余变量，因为它们不考虑变量之间的关系。

一个包装方法会选择多少个特征？

将其视为所有可能特征子集的空间的启发式搜索方法。根据定义，“包装方法评估特征子集，因此它考虑了特征之间的交互。”

示例：爬山，即不断添加功能，直到无法实现进一步改进。

由于我们有 50 个信息最多的特征，其他 50 个前者的副本和 900 个特征是或没有用的。因此，我们只得到了 50 个特征。

【讨论】：