如何识别WEKA中的相关特征？答案

【问题标题】：How to identify relevant features in WEKA?如何识别WEKA中的相关特征？
【发布时间】：2013-12-30 12:37:15
【问题描述】：

我想在 WEKA 中进行特征分析。我有一个包含 8 个特征和 65 个实例的数据集。

我想执行可用于 SVM 等机器学习方法的特征选择和优化功能。例如在 Weka 中，我想知道如何显示哪些特征对分类结果贡献最大。

我认为 WEKA 提供了一个很好的图形用户界面，并允许对单个功能的影响进行非常详细的分析。但我不知道如何使用它。有什么帮助吗？

【问题讨论】：

【解决方案1】：

你有两个选择：

您可以使用过滤器执行属性选择。例如，您可以将AttributeSelection 选项卡（或过滤器）与搜索方法Ranker 和属性评估指标InfoGainAttributeEval 一起使用。通过这种方式，您可以根据其信息增益分数获得最具预测性的特征的排名列表。我已经做了很多次了，效果很好。有时它甚至有助于提高支持向量机的准确性，众所周知，支持向量机不需要（太多）特征选择。您可以尝试使用其他搜索方法来查找耦合预测变量的子组以及其他指标。
您可以查看 SVM 输出中的系数。例如，在线性 SVM 中，分类器是类似 a1.f1 + a2.f2 + ... + an.fn + fn+1 > 0 的多项式，ai 是实例的属性值，fi 是在 SVM 训练算法中获得的“权重”。因此，那些值接近0 的权重代表的属性不算太多，因此是不好的预测指标；极端权重（正或负）代表良好的预测指标。

此外，您可以检查特定分类器可用的可视化选项（例如，J48 是决策树，根测试中使用的属性是最佳预测器）。您也可以查看AttributeSelection 标签可视化选项。

【讨论】：

谢谢。我想尝试不同的分类器，而不仅仅是 SVM。所以首先想知道哪些特征对分类结果贡献最大。比减少或进行其他特征组合，并使用这些新选择的特征尝试不同的分类器，如 Bayers、GP、决策树、SVM..
在这种情况下，请按照第一个选项。
我认为 SVMAttributeEval 指标和 Ranker serach 方法是赖特的。那么 InfoGainAttributeEval 和 SVMAttributeEval 有什么区别？请你解释一下？
InfoGainAttributeEval 实现了信息增益，这几乎是一个标准。它是一种信息论度量，考虑了在使用一个属性时空间点的熵（或分离）如何变化。信息增益的高分意味着更容易对点进行分类。关于SVMAttributeEval，我从文档中复制：“它使用 SVM 分类器评估属性的价值。属性按 SVM 分配的权重的平方排序。”换句话说，它大致遵循我上面描述的第二种方法。
所以在 Weka 中，我可以使用搜索方法 Ranker 和属性评估指标 InfoGainAttributeEval 执行第一个 AttributeSelection 选项卡（或过滤器）。然后我会得到排名的特征，排名最好的特征可以尝试不同的分类器，看看是否可以提高性能。对吗？