如何在非平稳环境中求解确定性 MDP答案

【问题标题】：How to solve a deterministic MDP in a non-stationary environment如何在非平稳环境中求解确定性 MDP
【发布时间】：2018-08-18 00:07:04
【问题描述】：

我正在寻找一种解决马尔可夫决策过程 (MDP) 的方法。我知道从一种状态到另一种状态的转变是确定性的，但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。是否有可以用于解决我的问题的算法，例如 Q-Learning 或 SARSA？

【问题讨论】：

【解决方案1】：

理论上，这将是一个非常困难的问题。也就是说，很难找到一种算法可以在理论上证明收敛到任何（最优）解决方案。

在实践中，任何标准 RL 算法（如您提到的那些）都可能没问题，只要它不是“太不稳定”。我的意思是，如果您的环境变化不会太快/突然/经常发生，那么在实践中可能会很好。您可能希望使用比在静止环境中稍高的探索率和/或更高的学习率，因为您需要能够继续学习，并且最近的体验将比旧的体验提供更多信息。

【讨论】：

但是足够静止和不够静止之间的界限在哪里。什么是过于频繁？每个时间步，每五或十个时间步？我认为这完全取决于我的 MDP 的设计。所以我想确保，我会找到一个最佳的解决方案。我希望能够解释，为什么我对状态和行为的定义是这样的。确定性部分呢？对解决方案有影响吗？
@Thousandsunnies 无法确定线路的真正位置。我已经在实践中/经验上专门谈论过，而不是理论。如果您谈论的是一般的 RL 设置（由于提到 Q-learning / SARSA 而我认为它），其中 MDP 的属性（如转换矩阵）是未知的，您只能从经验中学习，没有更多理论上说。如果您确实知道 MDP 的所有属性，那可能会改变一些事情，但是我们需要知道所有精确、正式的细节。