1.  lecture 5 : policy gradient introduction
  • 求   lecture 5 : policy gradient introduction 时运用了 如下一个技巧:

                 lecture 5 : policy gradient introduction

于是,

 lecture 5 : policy gradient introduction

由于 lecture 5 : policy gradient introduction 则  lecture 5 : policy gradient introduction 变为:

 lecture 5 : policy gradient introduction

在代码实现的时候,用trajactory的平均来估计 lecture 5 : policy gradient introduction,即:

 lecture 5 : policy gradient introduction

接下来又分析了 vanila policy gradient 方法  的 high varience :

 lecture 5 : policy gradient introduction

直观上的理解就是,某个概率分布(如图中的r(r), 受数据的偏移影响较大)

   为了减少varience,  开始如下分析:

由于某个时刻 前面的reward 对现在时刻的微分没有影响,所以 lecture 5 : policy gradient introduction 变为:

 lecture 5 : policy gradient introduction

之后又加了baseline, 如下所示: 

 lecture 5 : policy gradient introduction

b 可以取任何值(不依赖于cita) , 为什么要减?因为要减少varience (计算方差的公式前面的平方项的效果不后面那一项大)

减去b 之后,有无影响? 没有(也可以认为 是 unbiased 的项)  ,因为:

 lecture 5 : policy gradient introduction

/******************************************************************************************************************/

课程中也讨论了, b 该取何值?从计算方差的定义出发:

 lecture 5 : policy gradient introduction

后面那一项,与没有减之前相等,所以消去,前一项对b 求偏导得 :

 lecture 5 : policy gradient introduction

直观的理解就是 weighted expeted reward, weight 由 gradient 决定。

/******************************************************************************************************************/

 

 

  • 以上policy gradient 是 on-policy 方法, 即由 pilicy 运行产生的data 进行训练,所以此时的方法 是data inefficient 的因为它用过一个数据之后就把它丢弃了。 一个解决方法是 off-policy的 policy gradient 方法: important sampling: lecture 5 : policy gradient introduction 通过其他的分布来估计现有分布的值。 lecture 5 : policy gradient introduction

 可以看到  lecture 5 : policy gradient introduction 的微分由  lecture 5 : policy gradient introduction 的分布决定。 至此,算法变为了off-policy, 即通过不是该策略产生的数据来训练参数。通过等式可以看出,要通过importance ratio 进行调整。其中 :

 lecture 5 : policy gradient introduction

之后介绍了一种简化expotial 的方法

课程最后介绍了使用important sampling 的例子, 如 locomotion  imitation , 从现实中的人类行走这个分布抽取数据。

 

相关文章: