1.Sarsa:

核心:拿下一步的Q值来更新这一步的Q值

强化学习——Sarsa

sample() 输入的为状态,输出的为动作。

再进行learn()需要注意要先通过next_obs拿到next_action

强化学习——Sarsa

2.强化学习——Sarsa

强化学习——Sarsa

3.Sarsa与环境交互

强化学习——Sarsa

3.1Sarsa Agent 根据Q表格选动作

强化学习——Sarsa

3.2.更新Q表格

强化学习——Sarsa

相关文章: