Policy Gradient如何实做
我们主要看log那一项该怎么理解,实际上当像上图这样(蓝色方框盖住R)时,那一项可以用分类问题来理解。网络每次输入s,输出a,然后让a接近自己的分类标签。
但现在这里有些不一样(像上图中),就是我们会在每次输入输出计算出Log部分之后再乘一个R。
另外说明:上图中,当左边R为2时,右边s和a对应的输入(如下图)就复制两次。如果左边R为1,那s和a对应的就一次就好。然后这样去训练数据。
这样的话,其实代码不需要改动多少就能进行强化学习了。
但是训练时间会很长,因为每次训练网络之后,要再收集一次数据,然后再去训练网络…
而之前我们的分类问题,训练数据在一开始定好,训练一次网络就结束了,而现在要训练多次。