【发布时间】:2016-10-06 13:59:50
【问题描述】:
带有小批量的随机梯度下降算法通常使用小批量的大小或计数作为参数。
现在我想知道的是,是否所有小批量都需要完全相同的大小?
以来自 MNIST 的训练数据(60k 训练图像)和 70 的 mini-batch 大小为例。
如果我们进入一个简单的循环,那会产生我们857 mini-batches of size 70 (as specified) and one mini-batch of size 10.
现在,(使用这种方法)一个 mini-batch 会比其他 mini-batch 小(这里最坏的情况:大小为 1 的 mini-batch)是否重要? 这会强烈影响我们的网络在几乎所有训练中学到的权重和偏差吗?
【问题讨论】:
标签: machine-learning neural-network gradient-descent