【问题标题】:Weighted features in machine learning机器学习中的加权特征
【发布时间】:2019-07-14 23:49:16
【问题描述】:

我是机器学习的初学者。因此,任何帮助或建议都会有很大帮助。

我已经读过,将权重放在特征上并进行预测是一个非常糟糕的主意。但是,如果需要加权的特征很少。

在分类问题中,假设年龄是最依赖的一个常见规范,我如何为这个特征赋予权重。我正在考虑对其进行归一化,但方差为 1.5 或 2(方差为 1 的其他特征),我相信这个特征会有更大的权重。这从根本上是错误的吗?如果错误任何其他方法。

它对分类和回归问题的影响是否不同?

【问题讨论】:

    标签: machine-learning normalization random-forest


    【解决方案1】:

    如果我们专门讨论随机森林(如您标记的那样),那么您可以使用加权子空间随机森林算法(在 R wsrf 包中)。该算法确定每个变量的权重,然后在模型构建过程中使用这些权重。

    变量相对于类的信息量是 用信息增益比来衡量。该措施被用作 该变量被选择包含在 在树期间拆分特定节点时的可变子空间 建设过程。因此,具有较高值的​​变量由 在变量期间更有可能选择度量作为候选 选择和构建更强大的树。

    【讨论】:

      【解决方案2】:

      一般来说,如果一个特征与其他特征相比具有更高的重要性,并且模型足够密集,有足够的训练样本,您的模型将通过优化权重矩阵来自动赋予它更高的重要性,因为我们在反向传播中有偏导数它通过每个连接计算变化,因此它学会更加重视自身的该特征。如果您不对其进行标准化,而是将其扩大到更高的规模,那么您可能夸大了它的重要性。

      实际上,如果输入居中且为白色,则神经网络效果最佳。这意味着它们的协方差是对角的,平均值是零向量。这改进了神经网络的优化,因为隐藏的激活函数不会那么快地饱和,因此在学习的早期不会给你接近零的梯度。

      如果你只将一个特征放大一个很小的值,它可能会产生预期的效果,也可能不会,但饱和梯度的概率更高,所以我们避免它。

      【讨论】:

      • 是的,我明白这一点。但是,对于具有更高方差的特征进行归一化有何影响?
      • @game.changer 现在检查答案,希望能解决问题。
      猜你喜欢
      • 2013-08-15
      • 1970-01-01
      • 2012-03-28
      • 1970-01-01
      • 2021-05-12
      • 2020-10-16
      • 1970-01-01
      • 1970-01-01
      • 2016-09-11
      相关资源
      最近更新 更多