【发布时间】:2017-08-15 10:30:12
【问题描述】:
我正在训练我的方法。我得到的结果如下。这是一个很好的学习率吗?如果不是,是高还是低? 这是我的结果
lr_policy: "step"
gamma: 0.1
stepsize: 10000
power: 0.75
# lr for unnormalized softmax
base_lr: 0.001
# high momentum
momentum: 0.99
# no gradient accumulation
iter_size: 1
max_iter: 100000
weight_decay: 0.0005
snapshot: 4000
snapshot_prefix: "snapshot/train"
type:"Adam"
这是参考
在学习率低的情况下,改进将是线性的。随着高学习率,它们将开始看起来更具指数性。更高的学习率会更快地衰减损失,但它们会陷入更差的损失值
【问题讨论】:
-
这里的上下文很少,但看起来不错。您可以尝试提高学习率(以节省训练时间),直到您看到它不再收敛。最后训练集的准确率是多少?
-
@Simon:在上述设置中,50000 次迭代的最终错误率为 0.05。我将 base_lr 增加到 0.002,而不是 0.001 以查看改进
-
Adam 有一个内部 LR,因此在步骤中更改外部 LR 可能没有意义。
标签: machine-learning neural-network deep-learning caffe