非完美信息博弈

一些历史动作并不是对所有玩家已知(invisible)

【RL China 2020笔记】博弈论基础
例如图中的节点b和c,这两个节点对于玩家2来说是不可区分的。

为了描述对于某个玩家来说一系列不可区分的状态,把这些一系列不可区分的状态定义为信息集

马尔可夫博弈(随机博弈)
  • 博弈定义

    • 状态空间 SS
    • 动作空间A=A1×A2×...×AnA = A_1 \times A_2 \times ... \times A_n
    • 转移方程 p:S×ASp: S \times A \rightarrow S
    • 奖励函数 r:S×ARr: S \times A \rightarrow R
  • 行为策略

    • 策略 πi:S×Ai[0,1]\pi_i: S\times A_i \rightarrow [0, 1]
  • 性质

    • 玩家同时做决策
    • 多个状态
    • 立即的奖励 (immdiate reward)
    • 随机性(一定概率做选择)
    • 循环(cycle)
贝叶斯博弈
  • 博弈定义

    • 每个玩家有自己的价值函数v1,v2v_1, v_2;
    • 每个玩家给出自己的出价b1,b2b_1, b_2
    • 拥有较高出价的玩家 ii 获得效用值 $ v_i-b_i$
    • 除了玩家 ii 之外的其他玩家效用值是0;
  • 性质

    • 玩家不知道精确的 payoff 矩阵;

贝叶斯博弈其实就是说:如果某一个玩家认为自己的交易是赚的的(心理价位>实际价位),那么这个玩家的效用值就是二者的差(心理价位-实际价位)

非完全信息(incomplete information)

博弈问题中的基本元素为:

  • 玩家 N={1,2,...,N}N = \{1,2,...,N\}
  • 动作空间 A=A1×A2×...×AnA = A_1\times A_2 \times ...\times A_n
  • 效用函数 u=(u1,...,un)u =(u_1,...,u_n)

在完美博弈中上述信息对于所有玩家都是已知的

在非完整信息博弈中,玩家并不完全知道效用函数 uu ,也就是说在游戏开始的时候,每个玩家仅仅知道自己的效用函数

  • 常见的非完美信息博弈:麻将、狼人杀

非完美信息和非完整信息的区别?

相关文章: