莫烦大大TensorFlow学习笔记（8）----优化器

tf.train.GradientDescentOptimizer：梯度下降算法
tf.train.AdadeltaOptimizer
tf.train.AdagradOptimizer
tf.train.MomentumOptimizer：动量梯度下降算法
tf.train.AdamOptimizer：自适应矩估计优化算法
tf.train.RMSPropOptimizer
tf.train.AdagradDAOptimizer
tf.train.FtrlOptimizer
tf.train.ProximalGradientDescentOptimizer
tf.train.ProximalAdagradOptimizertf.train.RMSProOptimizer

（1）如果数据是稀疏的，使用自适应学习方法。
（2）RMSprop，Adadelta，Adam是非常相似的优化算法，Adam的bias-correction帮助其在最后优化期间梯度变稀疏的情况下略微战胜了RMSprop。整体来讲，Adam是最好的选择。
（3）很多论文中使用vanilla SGD without momentum。SGD通常能找到最小值，但是依赖健壮的初始化，并且容易陷入鞍点。因此，如果要获得更快的收敛速度和训练更深更复杂的神经网络，需要选择自适应学习方法。

https://blog.csdn.net/winycg/article/details/79363169

二、常用的种类：

1、tf.train.Optimizer：

class tf.train.Optimizer：优化器（optimizers）类的基类。

Optimizer基类提供了计算损失梯度的方法，并将梯度应用于变量。这个类定义了在训练模型的时候添加一个操作的API。你基本上不会直接使用这个类，但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer.等等这些。

2、tf.train.GradientDescentOptimizer：梯度下降

原理：

batch GD【全部样本，速度慢】
随机GD【随机一个样本，速度快，但局部最优】
mini-batch GD 【batch个样本，常在数据量较大时使用】

训练集样本数少【≤2000】:采用batchGD

训练集样本数多：采用mini-batch GD，batch大小一般为64-512. 训练时多尝试一下2的次方来找到最合适的batch大小。

应用：

这个类是实现梯度下降算法的优化器。这个构造函数需要的一个学习率就行了。

构造函数：tf.train.GradientDescentOptimizer(0.001).minimize(loss,global_step=None,var_list=None,gate_gradients=GATE_OP,aggregation_method=None,colocate_gradients_with_ops=False,name=None,grad_loss=None)

1 __init__(
2 
3     learning_rate,
4 
5     use_locking=False,
6 
7     name='GradientDescent'
8 
9 )

View Code