文章目录 蒙特卡洛(监督学习方法) TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾 Q value 蒙特卡洛(监督学习方法) 让 VπV^πVπ无限接近GaG_aGa(也就是∑t=1nrt\sum_{t=1}^{n}r^t∑t=1nrt) TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾 losslossloss = Vπ(St)−Vπ(St+1)V^π(S_t)-V^π(S_{t+1})Vπ(St)−Vπ(St+1) Q value 相关文章: