1.什么是策略梯度
1.1.策略梯度是属于强化学习的一种算法,他是Q-learning和DQN的改进,强化学习是通过奖惩来不断学习的机制,有学习奖惩的值,有根据价值选行为的Q-learning和DQN,也有不通过奖励值直接输出动作的概率Policy Gradients
1.2.Policy Gradient好处:
2.Policy Gradient算法
2.1.environment是一个function,function吐出一个s1,actor看到游戏画面以后吐出a1,environment把a1当成他的输入再吐出s2,s2出现新的游戏画面再决定新的行为a2·····
2.2.需要做的就是调整内部的参数使得奖励值的总和R最大
2.3.Expected Reward
2.4.如何计算Expected Reward
3.Policy Gradient思维决策
3.1.整个过程
3.2.实际操作会遇到的细节
3.2.1希望reward不要总是正的,就需要设置一个基准baseline(b),
3.2.2给每一个action合适的credit,整场游戏是好的,不代表每一个action都是好的,整场游戏是坏的,不代表每一个action都是坏的。