1.什么是策略梯度

1.1.策略梯度是属于强化学习的一种算法,他是Q-learning和DQN的改进,强化学习是通过奖惩来不断学习的机制,有学习奖惩的值,有根据价值选行为的Q-learning和DQN,也有不通过奖励值直接输出动作的概率Policy Gradients
Policy Gradient笔记

1.2.Policy Gradient好处:

2.Policy Gradient算法

2.1.environment是一个function,function吐出一个s1,actor看到游戏画面以后吐出a1,environment把a1当成他的输入再吐出s2,s2出现新的游戏画面再决定新的行为a2·····

Policy Gradient笔记
2.2.需要做的就是调整内部的参数使得奖励值的总和R最大
Policy Gradient笔记

2.3.Expected Reward
Policy Gradient笔记
2.4.如何计算Expected Reward

Policy Gradient笔记

3.Policy Gradient思维决策

3.1.整个过程
Policy Gradient笔记
3.2.实际操作会遇到的细节

3.2.1希望reward不要总是正的,就需要设置一个基准baseline(b),

Policy Gradient笔记
3.2.2给每一个action合适的credit,整场游戏是好的,不代表每一个action都是好的,整场游戏是坏的,不代表每一个action都是坏的。

Policy Gradient笔记

相关文章: