【问题标题】:How can i apply feature reduction methods in Weka?如何在 Weka 中应用特征缩减方法?
【发布时间】:2014-01-02 18:14:25
【问题描述】:

1) 如何在 weka 中应用 LSI 等特征缩减方法进行文本分类?

2) 应用 LSI 等特征缩减方法可以提高分类准确率吗?

【问题讨论】:

    标签: machine-learning text-classification


    【解决方案1】:
    1. 查看FilteredClassifier 类或AttributeSelectedClassifier。使用 FilteredClassifier,您可以使用诸如主成分分析 (PCA) 之类的特征减少方法。这是video 如何使用 PCA 过滤数据集,以便您可以在缩减数据集上尝试不同的分类器。

    2. 它可以提供帮助,但不能保证这一点。如果您删除冗余特征,或以某种方式转换特征(如 SVM 或 PCA),分类任务会变得更简单。无论如何,大量特征通常会导致curse of dimensionality,而属性选择是一种避免它的方法。

    【讨论】:

    • @KashifKhan 如果我回答了您的问题,请将其标记为已接受,并可选择投赞成票。
    • 是的,我正在这样做,但一些问题(电力减载)阻止我这样做。也许您可以回答另一个查询,我正在通过 weka 执行文本分类。我通过 IG 对数据集 (20NewsGroup) 应用特征选择,并发现了惊人的分类准确率 (91.1%)。在此之后,我重新应用了特征选择和特征缩减(PCA),这一次我期望有更好的准确度,即使是很小的差距,但我把准确度降低到 76% 让我很失望。文本分类中的特征减少会提高减少它的准确性吗?
    • @KashifKhan 这实际上取决于您使用的功能。不可能提前说特征减少会增加还是降低准确性。我假设要从特征减少中获得准确性,应该有冗余特征,或者特征之间应该有一些关系,等等。如果两者都不是,你实际上可以删除有用的特征并减少可供你选择的分类器的可用信息量。
    • @KashifKhan 我建议搜索一些关于使用特征缩减的建议(可能在科学论文中)。如果您遇到困难,也可以在 metaoptimize.com/qa 上发布有关您的具体问题的问题。
    猜你喜欢
    • 2013-12-07
    • 2015-06-21
    • 2014-01-21
    • 2016-02-28
    • 2013-12-30
    • 2015-09-25
    • 2016-03-03
    • 2014-06-11
    • 2015-07-02
    相关资源
    最近更新 更多