【发布时间】:2023-04-02 17:58:01
【问题描述】:
在马尔可夫决策过程中可以看到以下转换。尝试确定它
R A S′ S
0 U C B
-1 L E C
0 D C A
-1 R E C
0 D C A
+1 R D C
0 U C B
+1 R D C
我需要找到状态、转换、奖励和转换概率。 我已经解决了除了概率之外的所有问题,但我不知道如何计算它们 如果有人可以提供帮助,我只需要知道从哪里开始
【问题讨论】:
标签: artificial-intelligence policy reinforcement-learning markov-decision-process