非完美信息博弈
一些历史动作并不是对所有玩家已知(invisible)
例如图中的节点b和c,这两个节点对于玩家2来说是不可区分的。
为了描述对于某个玩家来说一系列不可区分的状态,把这些一系列不可区分的状态定义为信息集。
马尔可夫博弈(随机博弈)
-
博弈定义
- 状态空间
- 动作空间
- 转移方程
- 奖励函数
-
行为策略
- 策略
-
性质
- 玩家同时做决策
- 多个状态
- 立即的奖励 (immdiate reward)
- 随机性(一定概率做选择)
- 循环(cycle)
贝叶斯博弈
-
博弈定义
- 每个玩家有自己的价值函数;
- 每个玩家给出自己的出价;
- 拥有较高出价的玩家 获得效用值 $ v_i-b_i$
- 除了玩家 之外的其他玩家效用值是0;
-
性质
- 玩家不知道精确的 payoff 矩阵;
贝叶斯博弈其实就是说:如果某一个玩家认为自己的交易是赚的的(心理价位>实际价位),那么这个玩家的效用值就是二者的差(心理价位-实际价位)
非完全信息(incomplete information)
博弈问题中的基本元素为:
- 玩家
- 动作空间
- 效用函数
在完美博弈中上述信息对于所有玩家都是已知的。
在非完整信息博弈中,玩家并不完全知道效用函数 ,也就是说在游戏开始的时候,每个玩家仅仅知道自己的效用函数
- 常见的非完美信息博弈:麻将、狼人杀