为什么 tensorflow 的 AdamOptimizer 实现不支持 L2 归一化答案

【问题标题】：Why tensorflow's implementation of AdamOptimizer does not support L2 normalization为什么 tensorflow 的 AdamOptimizer 实现不支持 L2 归一化
【发布时间】：2018-10-07 06:35:07
【问题描述】：

Tensorflow对AdamOptimzer的实现没有ProximalAdamOptimizer这样的正则化参数，例如l2_regularization_strength，是不是需要在AdamOptimzer中添加l2 norm？

【问题讨论】：

标签： tensorflow optimization

【解决方案1】：

Tensorflows Adam 的实现就是这样：Adam 的实现，它在论文中是如何定义和测试的。

如果您想使用带有 L2 正则化的 Adam 来解决您的问题，您只需将 L2 正则化项添加到您的损失中，并具有一些您可以自己选择的正则化强度。

我不能告诉你这是否必要或有帮助，或者使用什么正则化和正则化强度，因为这在很大程度上取决于问题并且相当主观。

【讨论】：

【解决方案2】：

通常您自己将正则化添加到损失中，就像here 所描述的那样。然而tf.train.ProximalAdagradOptimizer 包含一个特殊的非标准正则化，它是算法的一部分，因此也是tf.train.ProximalAdagradOptimizer 的一部分。

【讨论】：

你能分享更多关于“特殊非标准正则化”的信息，为什么正则化是这个优化器的一部分？原论文很长，数学太难理解。
@cheng 这篇论文不是关于为什么使用正则化。这是关于如何规范化。正则化通常用于防止过拟合。