【问题标题】:What algorithms available in weka automatically weights the features of the dataset?weka 中可用的哪些算法会自动对数据集的特征进行加权?
【发布时间】:2012-10-10 15:04:11
【问题描述】:

我有一个包含 5 到 10 个特征的数据集。输出值是一个标量值。 (所以我看起来像线性回归,而不是分类器)。一些特征比其他特征更重要,一些特征组合可以产生很大的结果。

考虑到这些要求,Weka 中内置的哪些算法是不错的候选者?

【问题讨论】:

    标签: algorithm machine-learning weka


    【解决方案1】:

    您是否尝试过 Weka Explorer 中的“选择属性”选项卡? InfoGainAttributeEval 和 CorrelationAtrributeEval 是我通常开始使用的两种有用的特征选择方法。

    这是 InfoGainAttributeEval 针对我的数据集的示例输出。第一列按降序列出每个属性的重要性。

    Ranked attributes:
    0.02416    8 attr8
    0.014166  16 attr16
    0.012868  14 attr14
    0.011905  15 attr15
    0.011624   6 attr6
    0.010619   1 attr1
    0.010367   3 attr3
    0.010171   5 attr5
    0.008921   7 attr7
    0.008763  11 attr11
    0.006094   9 attr9
    0.00603   10 attr10
    0.003089   4 attr4
    0.00095   12 attr12
    0.000672   2 attr2
    0.000127  13 attr13
    
    Selected attributes: 8,16,14,15,6,1,3,5,7,11,9,10,4,12,2,13 : 16
    

    如果您有兴趣,请参阅以下链接以获取有关基于相关性的特征选择的经典论文: http://www.cs.waikato.ac.nz/~mhall/thesis.pdf

    【讨论】:

      【解决方案2】:

      Weka 有一组“Classifier”执行回归(它们输出 Weka 术语中的数字“类”)。在 Weka GUI 中,如果您选择数字属性作为“类”,您将看到它们。

      其中有weka.classifiers.functions.SimpleLinearRegression,它完全按照它所说的那样做。 Weka 还有更复杂的回归引擎,比如MultilayerPerceptron

      【讨论】:

      • 不确定,但我认为他不是在寻找“哪个功能更好”,而是在使用linear regression 时赋予每个功能更多的权重(theta 值)。不确定我是否正确。 (请注意,AttributeSelection 中赋予每个特征的权重表示其重要性 - 而不是如何使用它,属性可能与输出值具有高度负相关 - 并且 AttributeSelection 会给它高分,而如果我理解正确,他在这种情况下正在寻找负权重)
      • 也许我误读了这个问题。然而,Weka 已经有一个线性回归算法......我很惊讶 OP 没有遇到它,如果那是他正在寻找的东西。
      • 实话实说——我从未使用过 Weka 的 LinearRegression——但由于它是 Classifier 的一个实例,我怀疑它使用线性回归算法来预测一个 class 实例——而不是预测它的“分数”——如果你知道答案,我会很高兴知道的:|
      • @amit 我确实在寻找the weights (theta values) to give to each feature when using linear regression。就我而言,不存在与输出负相关的负权重,但我肯定在某些参数上具有高度正相关。例如,与其他参数相比,某些参数对输出的影响非常大。
      • @amit:这是一个Classifier,但它仅适用于预测数值(即连续数据,而不是类)。 Weka 的术语在这方面是不同寻常的。
      猜你喜欢
      • 2013-01-22
      • 2017-12-08
      • 2019-06-29
      • 2014-02-11
      • 2012-07-14
      • 1970-01-01
      • 2011-10-05
      • 1970-01-01
      • 2014-11-29
      相关资源
      最近更新 更多