Gradient Descent
注意是列向量
做gradient descent的时候最好把右边的图画出来,可以调整learning rate
另外一种,最简单的就是Adagrad
假设有一个人平时很凶恶,而今天对我温柔了,就会觉得他特别温柔
除了一次微分,还要除以二次微分,才能真正衡量和最低点的距离,这和adgrad的联系在哪里呢?
天下武功唯快不破
Gradient Descent
注意是列向量
做gradient descent的时候最好把右边的图画出来,可以调整learning rate
另外一种,最简单的就是Adagrad
假设有一个人平时很凶恶,而今天对我温柔了,就会觉得他特别温柔
除了一次微分,还要除以二次微分,才能真正衡量和最低点的距离,这和adgrad的联系在哪里呢?
天下武功唯快不破
相关文章: