【发布时间】:2020-05-06 11:04:55
【问题描述】:
我必须训练一个模型,该模型可以近似用于将输入 (3) 映射到单个输出 (1) 的函数,其中 sigmoid 在隐藏层中激活并 tanh 在输出层。
数据是输入输出对的 8 行 ((X,Y,Z), SUM) 其中 X,Y 和 Z 是输入,SUM 是输出。
X、Y 和 Z 的值在不同的随机范围内。现在,我陷入了在规范化和/或标准化之间做出决定的问题。我浏览了一些资源,但我找到了参考Clustering and Image Classification 的答案。
我应该选择什么?我的意思是,如果进行规范化或标准化,应该对整个全局数据(X、Y、Z SUM)进行处理,还是分别进行不同的处理。另外,如果我标准化,那么最后我将不得不去标准化。这不是不正常吗?
【问题讨论】:
-
看看this post。您可能想要进行标准化。而且,你说的“……最后去标准化。这不是不正常吗?”
-
@rugortal 一旦我训练好模型,并要求它对输入(0,10,5)进行预测,输入将首先标准化,然后给出相应的结果.但如你所知,结果应该是 0+10+5 = 15。但这不是通过输入标准化值直接得到的。
-
好的,现在我明白了。这里的重点是,一般而言,我们不规范化(也不标准化)目标。当您对数据进行标准化时,您的机器将学习一个函数 f,该函数将 standardized 输入 (X, Y, Z) 映射到预期目标 总和。因此,新的标准化输入也应该产生预期的目标。
-
This post 非常有助于理解我们为什么要对特征向量进行归一化,而不是对目标进行归一化。
标签: machine-learning statistics linear-regression normalization data-processing