【问题标题】:Standardize/Normalize data (binary+numeric) before autoencoder, ward hierarchy clustering, etc.?在自动编码器、病房层次聚类等之前标准化/标准化数据(二进制+数字)?
【发布时间】:2017-09-05 21:07:54
【问题描述】:

我有一个包含二进制数据 (0,1) 和具有不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类(可能是自动编码器或层次聚类),我应该对数据进行标准化还是规范化?

谢谢!

【问题讨论】:

    标签: deep-learning cluster-analysis normalization hierarchy standardized


    【解决方案1】:

    视情况而定。

    对于神经网络,您可能出于数值原因需要标准化连续变量。但这取决于您的平台。考虑 Google 的 TPU:它们以 1 字节精度工作,因此您希望相关输入域以最佳方式使用这个有限范围。

    对于聚类等基于距离的方法,数据预处理至关重要,但也很困难。标准化总是正确的做法是错误的。但是应用一些标准化是相当普遍的。但是您需要领域专家来找到最佳规范化。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-04-26
      • 1970-01-01
      • 1970-01-01
      • 2017-01-20
      • 2018-05-19
      • 2019-01-21
      • 2017-07-31
      相关资源
      最近更新 更多