【问题标题】:feature selection in wrapper method and information filtering?包装方法中的特征选择和信息过滤?
【发布时间】:2015-06-03 15:31:06
【问题描述】:

我看到一个知名人士Tom Mitchell在中老年考试中的例子,如下:

考虑在总共有 1000 个特征的情况下学习分类器。 其中有 50 篇确实提供了有关课堂的信息。另外 50 个功能是 前 50 个特征的直接副本。最后的 900 个特征不是 内容丰富。假设有足够的数据来可靠地评估有用性 特征是,并且特征选择方法使用良好 阈值。

How many features will be selected by mutual information filtering?

解决方案:100

How many features will be selected by a wrapper method?

解决方案:50

我的挑战是如何实现这些解决方案?我做了很多尝试,但无法理解这背后的想法。

【问题讨论】:

    标签: machine-learning classification data-mining pattern-recognition feature-selection


    【解决方案1】:
    How many features will be selected by mutual information filtering?
    

    互信息特征选择独立评估每个特征的候选资格。由于本质上有 100 个特征是真正提供信息的,因此我们将通过互信息过滤得到 100 个特征。

    How many features will be selected by a wrapper method?
    

    包装器方法评估特征子集,因此它考虑了特征之间的交互。由于 50 个特征是其他 50 个特征的直接副本,因此包装方法能够发现 前 50 个特征为条件,第二组 50 个特征没有添加任何 额外信息 完全没有。过滤后我们最终得到了 50 个特征。假设第一组 50 个特征是A1, A2, ..., A50,50 个特征的副本是C1, C2, ..., C50。所选特征的最终结果可能如下所示:

    A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.
    

    因此,每个唯一特征应该只出现一次(来自A 的特征集或C 的特征集)。

    【讨论】:

      【解决方案2】:

      互信息过滤会选择多少特征?

      如果按照问题描述,我们应该只选择了 50 个特征。但是这种过滤是基于与要预测的变量的相关性。而且,互信息过滤的主要缺点之一是,它们倾向于选择冗余变量,因为它们不考虑变量之间的关系。

      一个包装方法会选择多少个特征?

      将其视为所有可能特征子集的空间的启发式搜索方法。根据定义,“包装方法评估特征子集,因此它考虑了特征之间的交互。”

      示例:爬山,即不断添加功能,直到无法实现进一步改进。

      由于我们有 50 个信息最多的特征,其他 50 个前者的副本和 900 个特征是或没有用的。因此,我们只得到了 50 个特征。

      【讨论】:

        猜你喜欢
        • 2012-11-23
        • 1970-01-01
        • 2016-03-03
        • 1970-01-01
        • 1970-01-01
        • 2015-09-08
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多