【问题标题】:determine MDP from seen transitions从看到的转换中确定 MDP
【发布时间】:2023-04-02 17:58:01
【问题描述】:

在马尔可夫决策过程中可以看到以下转换。尝试确定它

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

我需要找到状态、转换、奖励和转换概率。 我已经解决了除了概率之外的所有问题,但我不知道如何计算它们 如果有人可以提供帮助,我只需要知道从哪里开始

【问题讨论】:

    标签: artificial-intelligence policy reinforcement-learning markov-decision-process


    【解决方案1】:

    对于状态 B,操作 U 始终会导致新状态 C。所以,P(C|B,U)=1(你可能也认为P(C|B)=1)。 P(D|C,R)=2/3 因为在三分之二的情况下,R 在状态 C 中的操作导致 D

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-09-23
      • 2023-03-28
      • 1970-01-01
      • 1970-01-01
      • 2014-10-23
      • 1970-01-01
      • 2018-08-18
      • 2016-06-07
      相关资源
      最近更新 更多