【问题标题】:Does XGBoost need standardization or normalization?XGBoost 是否需要标准化或规范化?
【发布时间】:2023-01-20 15:15:40
【问题描述】:

在下面的链接中,我确认 XGBoost 不需要规范化。 但是,在我们现在使用的数据集中,我们需要使用标准化 以获得高性能。

如果构成一个样本的特征之间的尺度差异很大,是否有必要进行标准化?

这是 18 个特征的一个示例。第 10 个特征总是等于 60。

[ 0.001652 0.000434 0.00312 0.000494 -0.093933 4.173985 6.314583 1.138626 3.807321 60. 0.000108 0.000131 0.000272 0.000067 0.000013 0.000013 0.000108 0.000108]

https://datascience.stackexchange.com/a/60954

您的理由确实是正确的:决策树不需要对其输入进行归一化;
 由于 XGBoost 本质上是一种由决策树组成的集成算法,因此它不
 也需要对输入进行归一化。

如需证实,另请参阅线程是否需要规范化?在 XGBoost Github 回购,
首席 XGBoost 开发人员的回答很明确:

不,你不必规范化功能

【问题讨论】:

    标签: normalization xgboost standardization


    【解决方案1】:

    当输入数据集的特征在它们的范围之间有很大差异,或者只是当它们以不同的单位(例如,磅、米、英里等)测量时,标准化就会出现。

    逻辑回归和基于树的算法(例如决策树、随机森林和梯度提升)对变量的大小不敏感。所以在拟合这些模型之前不需要标准化。

    参考: https://builtin.com/data-science/when-and-why-standardize-your-data

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-04-05
      • 2011-03-22
      • 2017-03-05
      • 2017-06-26
      • 2012-04-04
      • 2016-10-15
      • 1970-01-01
      相关资源
      最近更新 更多