【RL China 2020笔记】博弈论基础

非完美信息博弈

一些历史动作并不是对所有玩家已知(invisible)

【RL China 2020笔记】博弈论基础
例如图中的节点b和c，这两个节点对于玩家2来说是不可区分的。

为了描述对于某个玩家来说一系列不可区分的状态，把这些一系列不可区分的状态定义为信息集。

马尔可夫博弈（随机博弈）

博弈定义
- 状态空间 $S$
- 动作空间 $A = A_1 \times A_2 \times ... \times A_n$
- 转移方程 $p: S \times A \rightarrow S$
- 奖励函数 $r: S \times A \rightarrow R$
行为策略
- 策略 $\pi_i: S\times A_i \rightarrow [0, 1]$
性质
- 玩家同时做决策
- 多个状态
- 立即的奖励 (immdiate reward)
- 随机性（一定概率做选择）
- 循环（cycle）

贝叶斯博弈

博弈定义
- 每个玩家有自己的价值函数 $v_1, v_2$ ;
- 每个玩家给出自己的出价 $b_1, b_2$ ；
- 拥有较高出价的玩家 $i$ 获得效用值 $ v_i-b_i$
- 除了玩家 $i$ 之外的其他玩家效用值是0；
性质
- 玩家不知道精确的 payoff 矩阵；

贝叶斯博弈其实就是说：如果某一个玩家认为自己的交易是赚的的（心理价位>实际价位），那么这个玩家的效用值就是二者的差（心理价位-实际价位）

非完全信息(incomplete information)

博弈问题中的基本元素为：

玩家 $N = \{1,2,...,N\}$
动作空间 $A = A_1\times A_2 \times ...\times A_n$
效用函数 $u =(u_1,...,u_n)$

在完美博弈中上述信息对于所有玩家都是已知的。

在非完整信息博弈中，玩家并不完全知道效用函数 $u$ ，也就是说在游戏开始的时候，每个玩家仅仅知道自己的效用函数

常见的非完美信息博弈：麻将、狼人杀

非完美信息和非完整信息的区别？

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode