【发布时间】:2023-01-20 15:15:40
【问题描述】:
在下面的链接中,我确认 XGBoost 不需要规范化。 但是,在我们现在使用的数据集中,我们需要使用标准化 以获得高性能。
如果构成一个样本的特征之间的尺度差异很大,是否有必要进行标准化?
这是 18 个特征的一个示例。第 10 个特征总是等于 60。
[ 0.001652 0.000434 0.00312 0.000494 -0.093933 4.173985 6.314583 1.138626 3.807321 60. 0.000108 0.000131 0.000272 0.000067 0.000013 0.000013 0.000108 0.000108]
https://datascience.stackexchange.com/a/60954
您的理由确实是正确的:决策树不需要对其输入进行归一化; 由于 XGBoost 本质上是一种由决策树组成的集成算法,因此它不 也需要对输入进行归一化。 如需证实,另请参阅线程是否需要规范化?在 XGBoost Github 回购, 首席 XGBoost 开发人员的回答很明确: 不,你不必规范化功能
【问题讨论】:
标签: normalization xgboost standardization