MDP (Markov Decision Process)
State: S
Action: A
Tansition Function
T(s,a,s′)=P(St+1=s′,St=s,At=a)
Reward Function
R(s)||R(s,a)||R(s,a,s′)
如果让Initial State做Root,可以用:AND/OR Tree
例子:已知某一种Agent的出现概率如下(i:行;j: 例):
根据上面的Transition Function和某个情况 归纳出:
当j =0时, 按照上面公式,把紫色区域相加,即为当j = 0时的所有值:
T1(0,0) = 0.3+0.3+0.2+0.1+0.2=1
T1(1,0) = 0.2+0.2+0.1+0.2 = 0.7
T1(2,0) = 0.2+0.1+0.2 = 0.5
…
如果有P1 和 P2:
Current State
Current State
假设求Sate 1为 2,State 2为1;Action 对应 1 与 2 分别为 1, 0;下一阶段的Sate 1 与 State 2 对应 1,0:
从T1 的Matrix 找到行(i)=>3,例(j)=>1的对应数字为0.2,假设T2(1,0)=0.3, 则最后上面例子的结果为: