值函数
策略: 状态s到动作a的映射:
值函数:值函数都是对应于特定的策略的,即
对于策略
也可表示为Bellman形式,是一种迭代思想:
其中
最优的值函数
对于某状态s的最优值函数用
定义如下:
由上式可知,最优的策略
写成Bellman方程就是:
最优的策略
用
在某一状态s下的最优策略定义如下:
值迭代
策略迭代
其中
策略: 状态s到动作a的映射:
值函数:值函数都是对应于特定的策略的,即
对于策略
也可表示为Bellman形式,是一种迭代思想:
其中
对于某状态s的最优值函数用
定义如下:
由上式可知,最优的策略
写成Bellman方程就是:
用
在某一状态s下的最优策略定义如下:
其中
相关文章: