没有一个Optimization是万能的!!!
Background Knowledge
What is Optimization about?
On-line vs Off-line
SGD
SGD with Momentum(SGDM)
普通SGD可能恰好算出到一个局部最优,然后卡住就不动了;但是加入movement后,前面movement会对后面产生影响,可以跳出局部最优。
Adagrad
分母会永无止境的变大,可能走几步因为前几步的gradient太大导致后面step过小。
RMSProp
虽然解决了EMA问题,但是可能卡在一个gradient=0的位置。
Adam
Adam vs SGDM
SWATS(combine Adam with SGDM)
Towards Improving Adam
AMSGrad
AdaBound
Towards Improving SGDM
周期性调整Learning rate
Does Adam need warm-up?
RAdam
RAdam vs SWATS
k step forward , 1 step back
Adam in the future(Nadam)
Something helps optimization
与learning rate 调整有关的