强化学习分类
bootstrapping算法(自举算法)
直接上公式,前面的推导过程就不粘了,跟马尔可夫那块差不多。
vπ(s)=a∈ A∑π(a∣s)(Rsa+γs′∈S∑Pss′avπ(s′))
在公式中,vπ(s′)是未知的,也就是下一步的值函数是位置的,但是求当前状态的值函数需要下一状态的值函数。文中使用高斯-赛德尔迭代法进行求解
vk+1(s)=a∈ A∑π(a∣s)(Rsa+γs′∈S∑Pss′avk(s′))
从公式中可以看出,vk+1(s)与vk(s′)的值函数通过迭代逼近,实现的伪代码如下
- 输入:需要评估的策略π状态转移概率pss′a回报函数Rsa,折扣因子γ
- 初始化值函数:v(s)=0
- Repeat k=0,1,…
- for every s do
- vk+1(s)=∑a∈Aπ(a∣s)(Rsa+γ∑s′∈Spss′avk(s′))
- end for
- Until vk+1=vk
- 输出:v(s)
需要注意的是,在每次迭代中都需要对状态集进行一次遍历(扫描)以便评估每个状态的值函数。
相关文章:
-
2022-01-22
-
2022-12-23
-
2021-11-21
-
2021-08-15