【发布时间】:2023-03-28 15:20:01
【问题描述】:
我正在对网格世界实施 Q-learning,以找到最佳策略。困扰我的一件事是状态转换是随机的。例如,如果我处于状态 (3,2) 并采取行动“北”,我将以 0.8 的概率降落在 (3,1),以概率 0.1 降落到 (2,2),然后降落到 (4 ,2) 概率为 0.1。我如何在算法中拟合这些信息?正如我目前所读到的,Q 学习是一种“无模型”学习——它不需要知道状态转移概率。我不相信算法将如何在训练过程中自动找到这些转换概率。如果有人能把事情弄清楚,我将不胜感激。
【问题讨论】:
标签: machine-learning reinforcement-learning q-learning