1.Sarsa:
核心:拿下一步的Q值来更新这一步的Q值
sample() 输入的为状态,输出的为动作。
再进行learn()需要注意要先通过next_obs拿到next_action
2.
3.Sarsa与环境交互
3.1Sarsa Agent 根据Q表格选动作
3.2.更新Q表格
1.Sarsa:
核心:拿下一步的Q值来更新这一步的Q值
sample() 输入的为状态,输出的为动作。
再进行learn()需要注意要先通过next_obs拿到next_action
2.
3.Sarsa与环境交互
3.1Sarsa Agent 根据Q表格选动作
3.2.更新Q表格
相关文章: