sarsa是on policy

sarsa和q-learning区别

q-learning是off policy 

区别在于更新Q值的时候,直接使用了最大的Q(st+1,a),相当于采用了Q(st+1,a)值最大的动作,即与t时刻a动作所采用的policy无关

sarsa和q-learning区别

相关文章: