Weka 属性选择答案

【问题标题】：Weka Attribute SelectionWeka 属性选择
【发布时间】：2012-09-08 22:53:57
【问题描述】：

我正在尝试在 Weka 中执行属性选择。我想用 InfoGainAttributeEval 作为评估器，因为我读到它相当于互信息，而 Ranker 作为搜索方法。我应该对训练集和测试集执行属性选择吗？另外，如何为 N 参数选择正确的值？

非常感谢您的宝贵时间，

娜迪亚

【问题讨论】：

【解决方案1】：

在训练和测试上分别应用属性选择可能会导致选择不同的属性，从而使它们不兼容。因此，要确保两个集合具有相同的属性，您需要在整个数据集上应用属性选择。选择最有用的属性后，您可以将数据拆分为训练集和测试集。

至于使用-N 的哪个值，我会使用您的属性总数。这将生成所有属性的排名列表，您可以自己评估所有属性的不同分数。然后，您可能会发现一个明确的阈值，将包含任何有用信息的属性与不添加任何内容的属性分开，以训练分类器。然后我将使用-T 选项设置此阈值。

【讨论】：

你好@Sicco！我想批量过滤相当于您使训练和测试集兼容的方法。您对 -N 和 -T 参数的建议帮助我澄清了问题，我将在 Weka 中尝试它们。非常感谢您提供的信息，很抱歉延迟回答！
不会以这种方式选择属性过拟合？
@fiacobelli 这取决于您设置阈值的严格程度。如果您只取表现最好的属性而忽略其余属性，则确实更有可能过度拟合。我的建议是尽可能多地获取似乎包含一些有趣数据的属性，并删除明显缺乏有价值信息的属性。我在回答中更清楚地说明了这一点。
@Sicco 你能看一下stackoverflow.com/questions/71119712/…