在强化学习学习过程中,往往存在这样一种问题:总的动作空间很大,但是在特定状态下有些动作不可行,如何处理? 例如:迷宫问题中当智能体处于迷宫边缘(1,1),此时采取向左或者向上的动作都会超出迷宫边缘。 在现实生活中确实有很多不可执行的动作,受到很多约束限制。目前所了解到的处理方式有以下几种: 1. 把动作集分为两部分:可执行动作和不可行执行动作。在选择动作的时候在可行动作的范围内。2. 通过对动作设置惩罚项(目前是最常用的) 大家还有什么好的方法么?欢迎评论 相关文章: 2021-10-13 2021-08-09 2022-01-03 2022-12-23 2021-06-18 2022-12-23 2021-10-24 2021-06-30