从看到的转换中确定 MDP

【问题标题】：determine MDP from seen transitions从看到的转换中确定 MDP
【发布时间】：2023-04-02 17:58:01
【问题描述】：

在马尔可夫决策过程中可以看到以下转换。尝试确定它

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

我需要找到状态、转换、奖励和转换概率。我已经解决了除了概率之外的所有问题，但我不知道如何计算它们如果有人可以提供帮助，我只需要知道从哪里开始

【问题讨论】：

【解决方案1】：

对于状态 B，操作 U 始终会导致新状态 C。所以，P(C|B,U)=1（你可能也认为P(C|B)=1）。 P(D|C,R)=2/3 因为在三分之二的情况下，R 在状态 C 中的操作导致 D。

【讨论】：