自动编码器的数据预处理技巧答案

【问题标题】：data preprocessing tricks for auto-encoder自动编码器的数据预处理技巧
【发布时间】：2017-06-28 09:20:53
【问题描述】：

最近，我尝试使用自动编码器来查找异常，但一些输入特征是计数数据（例如点击次数或显示次数）。我需要在训练之前进行标准化或缩放吗？

【问题讨论】：

你找到答案了吗？我也在使用自动编码器来处理异常，我应该规范化还是不规范化？
是的，你一定要把它标准化。

标签： machine-learning data-processing autoencoder

【解决方案1】：

是的，你会的。最常见的方法是减去平均值并除以标准差。您的每一个点击项目都应单独标准化。例如，如果您有多个 'nb_click_banner' 和 'nb_click_sidebar' 你应该独立地规范化两者。这有助于网络更快地训练，但它也为所有特征在输入上赋予相同的权重，并且不需要网络学习将这些权重除以某个因素以使其对输出产生相同的影响。

【讨论】：

【解决方案2】：

我认为任何类型的数值特征都需要规范化和缩放数据预处理，否则您可能会遇到一个特征比其他特征更能影响分类过程的情况，这仅仅是因为它可以容纳的数据范围。

【讨论】：

对自动编码器的数据预处理有什么建议吗？