【问题标题】:Weka Attribute SelectionWeka 属性选择
【发布时间】:2012-09-08 22:53:57
【问题描述】:

我正在尝试在 Weka 中执行属性选择。我想用 InfoGainAttributeEval 作为评估器,因为我读到它相当于互信息,而 Ranker 作为搜索方法。我应该对训练集和测试集执行属性选择吗?另外,如何为 N 参数选择正确的值?

非常感谢您的宝贵时间,

娜迪亚

【问题讨论】:

    标签: machine-learning weka


    【解决方案1】:

    在训练和测试上分别应用属性选择可能会导致选择不同的属性,从而使它们不兼容。因此,要确保两个集合具有相同的属性,您需要在整个数据集上应用属性选择。选择最有用的属性后,您可以将数据拆分为训练集和测试集。

    至于使用-N 的哪个值,我会使用您的属性总数。这将生成所有属性的排名列表,您可以自己评估所有属性的不同分数。然后,您可能会发现一个明确的阈值,将包含任何有用信息的属性与不添加任何内容的属性分开,以训练分类器。然后我将使用-T 选项设置此阈值。

    【讨论】:

    • 你好@Sicco!我想批量过滤相当于您使训练和测试集兼容的方法。您对 -N 和 -T 参数的建议帮助我澄清了问题,我将在 Weka 中尝试它们。非常感谢您提供的信息,很抱歉延迟回答!
    • 不会以这种方式选择属性过拟合?
    • @fiacobelli 这取决于您设置阈值的严格程度。如果您只取表现最好的属性而忽略其余属性,则确实更有可能过度拟合。我的建议是尽可能多地获取似乎包含一些有趣数据的属性,并删除明显缺乏有价值信息的属性。我在回答中更清楚地说明了这一点。
    猜你喜欢
    • 2019-03-29
    • 1970-01-01
    • 2013-11-02
    • 2012-08-15
    • 2021-09-23
    • 1970-01-01
    • 2012-04-09
    • 1970-01-01
    • 2015-10-21
    相关资源
    最近更新 更多