标准化 X_train 和 Y_train答案

【问题标题】：Standardization X_train and Y_train标准化 X_train 和 Y_train
【发布时间】：2020-10-26 14:32:45
【问题描述】：

我是该领域的初学者，目前正在研究基于 Facebook 广告的数据集。

目标变量是金额，范围在 10 到 200 之间，特征是频率（范围在 0.1 到 3.0 之间）和印象数（1000 到 30000）

训练我的模型后（线性回归）我的分数是 0.84但MSE是490，我认为这个值是因为特征有具有以下情况的行：（频率：1.432 和展示次数：25412）

我在将数据拆分为训练数据和测试数据后应用了标准化

Without Standardization

**为了解决这个问题，我想应用标准化来消除我应用 fit_transform (X_train) 和 transform (X_test) 的值的高方差

但分数是相同，MSE也是。

After Standardization

我的怀疑很白痴，但我在这个领域工作就像是 ML 的新手

1) 我注意到社区没有对目标变量 (Y) 应用标准化他们为什么这样做？

2)我在这里做错了吗？

谢谢你们！

【问题讨论】：

标签： machine-learning standardization

【解决方案1】：

标准化通常应用于自变量，因此均值大约为零，标准标准为一。即数据转换为标准正态分布。这样做的原因是它将自变量形式的比例标准化为 0 到 1。例如，如果变量 1 在 100 到 100 的比例范围内，而变量 2 在 0 到 1 的范围内，并且如果将它们沿着 x 绘制在一起-axis，您会在图中看到 vaibale2 接近于零，任何变量 2 的任何更改都可能不会影响目标值。

目标不应该标准化，因为如果模型应该预测会怎样。 y=f(x) , y 是目标值。

【讨论】：