1. tf.train.GradientDescentOptimizer:梯度下降算法
  2. tf.train.AdadeltaOptimizer
  3. tf.train.AdagradOptimizer
  4. tf.train.MomentumOptimizer:动量梯度下降算法
  5. tf.train.AdamOptimizer:自适应矩估计优化算法
  6. tf.train.RMSPropOptimizer
  7. tf.train.AdagradDAOptimizer
  8. tf.train.FtrlOptimizer
  9. tf.train.ProximalGradientDescentOptimizer
  10. tf.train.ProximalAdagradOptimizertf.train.RMSProOptimizer

(1)如果数据是稀疏的,使用自适应学习方法。
(2)RMSprop,Adadelta,Adam是非常相似的优化算法,Adam的bias-correction帮助其在最后优化期间梯度变稀疏的情况下略微战胜了RMSprop。整体来讲,Adam是最好的选择。
(3)很多论文中使用vanilla SGD without momentum。SGD通常能找到最小值,但是依赖健壮的初始化,并且容易陷入鞍点。因此,如果要获得更快的收敛速度和训练更深更复杂的神经网络,需要选择自适应学习方法。

https://blog.csdn.net/winycg/article/details/79363169

莫烦大大TensorFlow学习笔记(8)----优化器莫烦大大TensorFlow学习笔记(8)----优化器

 

二、常用的种类:

1、tf.train.Optimizer:

class tf.train.Optimizer:优化器(optimizers)类的基类。
Optimizer基类提供了计算损失梯度的方法,并将梯度应用于变量。这个类定义了在训练模型的时候添加一个操作的API。你基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer.等等这些。 

2、tf.train.GradientDescentOptimizer:梯度下降

原理:

  • batch GD【全部样本,速度慢】

  • 随机GD【随机一个样本,速度快,但局部最优】

  • mini-batch GD 【batch个样本,常在数据量较大时使用】

训练集样本数少【≤2000】:采用batchGD

训练集样本数多:采用mini-batch GD,batch大小一般为64-512. 训练时多尝试一下2的次方来找到最合适的batch大小。

 

莫烦大大TensorFlow学习笔记(8)----优化器

 

这个类是实现梯度下降算法的优化器。这个构造函数需要的一个学习率就行了。

构造函数:tf.train.GradientDescentOptimizer(0.001).minimize(loss,global_step=None,var_list=None,gate_gradients=GATE_OP,aggregation_method=None,colocate_gradients_with_ops=False,name=None,grad_loss=None)

莫烦大大TensorFlow学习笔记(8)----优化器
1 __init__(
2 
3     learning_rate,
4 
5     use_locking=False,
6 
7     name='GradientDescent'
8 
9 )
View Code

相关文章: