Policy Gradient笔记

1.什么是策略梯度

1.1.策略梯度是属于强化学习的一种算法，他是Q-learning和DQN的改进，强化学习是通过奖惩来不断学习的机制，有学习奖惩的值，有根据价值选行为的Q-learning和DQN，也有不通过奖励值直接输出动作的概率Policy Gradients
Policy Gradient笔记

1.2.Policy Gradient好处：

2.1.environment是一个function，function吐出一个s1，actor看到游戏画面以后吐出a1，environment把a1当成他的输入再吐出s2，s2出现新的游戏画面再决定新的行为a2·····

Policy Gradient笔记
2.2.需要做的就是调整内部的参数使得奖励值的总和R最大

2.3.Expected Reward
Policy Gradient笔记
2.4.如何计算Expected Reward

Policy Gradient笔记

3.1.整个过程
Policy Gradient笔记
3.2.实际操作会遇到的细节

3.2.1希望reward不要总是正的，就需要设置一个基准baseline（b），

Policy Gradient笔记
3.2.2给每一个action合适的credit，整场游戏是好的，不代表每一个action都是好的，整场游戏是坏的，不代表每一个action都是坏的。

Policy Gradient笔记