StandardScaler 变换后均值和标准差的可接受偏移量是多少？答案

【问题标题】：What is the acceptable offset for mean and standard deviation after StandardScaler transform?StandardScaler 变换后均值和标准差的可接受偏移量是多少？
【发布时间】：2021-04-26 11:50:15
【问题描述】：

我正在使用 sklearn StandardScaler 来转换/标准化数据，如下所示：

scaler = StandardScaler()
data = scaler.fit_transform(data)

我预计平均值为0，标准差为1。但是，我得到的值是 bit 不同的。

rnd = randrange(0, data.shape[1])
print(data[:,rnd].std())
print(data[:,rnd].mean())

1.0282903146389404
-0.06686584736835668

好像very close numbers to 0 and 1 should be acceptable;但是，不确定可接受的偏移量是多少。例如，+/- 1e-2，据我所知，是否足够接近？还是我应该担心？

【问题讨论】：

标签： python scikit-learn normalization

【解决方案1】：

您正在为您的数据变量使用fit_transform。这意味着，现在，您的所有数据都将按照均值 0 和标准差 1 的形状进行归一化。如下图所示：

您接下来要做的是，随机抽取您的 data 变量的一些样本。因此，您收集的新样本几乎是相同的，但是，由于存在随机参数，平均值和标准差将与您的数据不同。

为了进行比较，假设我们有人类身高的均值和标准差。如果我们现在对您所在国家/地区的高度进行小样本抽样，平均值和标准差将不会完全相同，但几乎相同。这就是重点。

如果您检查数据变量的均值和标准值，您将获得均值 0 和标准值 1。

【讨论】：