【发布时间】:2017-09-01 05:28:17
【问题描述】:
我想知道 Tensorflow 优化器(尤其是 AdamOptimizer)在将损失函数定义为总和或小批量的平均值/平均值时是否有偏好?
总的来说,我的假设是首选使用平均值,因为损失不取决于小批量的大小。因此,更容易找到适用于任何批量大小的学习率。
但是,Tensorflow 定义了例如l2_loss 内部为:
output = sum(t ** 2) / 2
这是否意味着优化器已经在内部考虑了批量大小,即他们期望损失与批量大小成线性关系?另外,从优化的角度来看,取一半 L2 范数的动机是什么?
【问题讨论】:
标签: tensorflow