确定 WEKA 中各个变量的重要性答案

【问题标题】：Determine importance of individual variables in WEKA确定 WEKA 中各个变量的重要性
【发布时间】：2013-02-03 03:23:09
【问题描述】：

我正在尝试确定单个变量在 LMT（逻辑模型树）DT（决策树）的 WEKA 实现中的重要性。

我想知道每个单独变量在分类任务中的贡献，因此需要确定每个单独变量的重要性。这是为了对我的结果进行更深入的分析。

我已经查看了“选择属性”选项卡和相应的算法（即主成分、信息增益、排名器等）；但是，这些算法提供了有关哪些组合或变量等级将有助于最好（或最有效或最快，取决于您的最终目标，分类器）的信息。

但是，我对排名或选择最重要的变量不感兴趣。我有兴趣确定每个变量对我的 DT 的最终分类分数有多大贡献（例如以百分比形式）。

我已经考虑一一删除每个变量以确定分数如何变化；但我不确定这是否可以手动完成，因为最终得分可能取决于一些潜在的相关性，这就是为什么我想将所有变量一起使用（即使一个变量的贡献为零）做出此决定。

所以，问题是：有没有办法衡量分类器中使用的每个单独变量的贡献（即使该贡献为零）？

提前感谢您的帮助。

【问题讨论】：

【解决方案1】：

以下是一些调查和研究的答案。事实是信息增益不是概率。此属性选择器的结果仅提供有关特征有助于“纯”分类的信息量的信息（整数 (0-1)）。

例如，InfoGain 值为 1 的特征意味着该特征中的所有可用信息都有助于分类，但这并不意味着仅使用该提示就能够进行整个分类。

在许多情况下，分类是不同特征相关性的结果（至少在我使用决策树的经验中）。因此，分析每个决策到达分类的路径是通过其相关性检测线索贡献的一种方法。信息增益算法将每个特征或属性作为一个单独的实体进行评估，而不考虑与它结合以决定类成员资格的其他属性。

【讨论】：