【发布时间】:2018-08-18 00:07:04
【问题描述】:
我正在寻找一种解决马尔可夫决策过程 (MDP) 的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。是否有可以用于解决我的问题的算法,例如 Q-Learning 或 SARSA?
【问题讨论】:
标签: reinforcement-learning expert-system markov-decision-process
我正在寻找一种解决马尔可夫决策过程 (MDP) 的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。是否有可以用于解决我的问题的算法,例如 Q-Learning 或 SARSA?
【问题讨论】:
标签: reinforcement-learning expert-system markov-decision-process
理论上,这将是一个非常困难的问题。也就是说,很难找到一种算法可以在理论上证明收敛到任何(最优)解决方案。
在实践中,任何标准 RL 算法(如您提到的那些)都可能没问题,只要它不是“太不稳定”。我的意思是,如果您的环境变化不会太快/突然/经常发生,那么在实践中可能会很好。您可能希望使用比在静止环境中稍高的探索率和/或更高的学习率,因为您需要能够继续学习,并且最近的体验将比旧的体验提供更多信息。
【讨论】: