【课程笔记】李宏毅2020学习课程2

Policy Gradient如何实做

【课程笔记】李宏毅2020学习课程2

我们主要看log那一项该怎么理解，实际上当像上图这样（蓝色方框盖住R）时，那一项可以用分类问题来理解。网络每次输入s，输出a，然后让a接近自己的分类标签。

但现在这里有些不一样（像上图中），就是我们会在每次输入输出计算出Log部分之后再乘一个R。
另外说明：上图中，当左边R为2时，右边s和a对应的输入（如下图）就复制两次。如果左边R为1，那s和a对应的就一次就好。然后这样去训练数据。
【课程笔记】李宏毅2020学习课程2
这样的话，其实代码不需要改动多少就能进行强化学习了。
但是训练时间会很长，因为每次训练网络之后，要再收集一次数据，然后再去训练网络…
而之前我们的分类问题，训练数据在一开始定好，训练一次网络就结束了，而现在要训练多次。