博弈论 - 爱码网

资源汇总

① 视频资源：网易公开课频道目前该站点汇集了大量的开放课程，内容丰富。

网易——耶鲁博弈论、网易耶鲁博弈论，字幕只到 16 讲，但优势在于随时可以播放，只要有网络随时可以观看，且没有广告人人影视开放课程——耶鲁博弈论上传此笔记时24 讲字幕已齐全，感觉这套字幕翻译质量很好，且保持了风格的统一，很适合学习的版本。且资源支持的下载方式多样，资源的健康程度也不错。我个人采用的即是这套资源。

资源包：

《策略与博弈论》作者：杜塔(含练习).Strategies_and_games-theory_and_practice(Dutta).pdf 英文版

课程所提到的影片：
《美丽心灵》拉塞尔·克劳和詹妮弗·康纳利搭档演绎约翰·纳什的一生，也就是本课程的核心概念纳什均衡的提出者。
《奇爱博士》库布里克三部曲之一，另外两部为《2001 太空漫游》《发条橙》《谍影重重三部曲》可以算是马特·戴蒙的代表作吧，本人最喜欢第三部。《特务风云》马特·戴蒙 Ben 的玩笑“耶鲁人都是间谍，间谍都是神经病。”《生活多美好 / 风云人物》也就是 Ben说的《美丽人生》，也就是在第五讲最后的时候 Ben 介绍的那个挤兑问题。不过不是他说的银行而是 George Bailey（詹姆斯·斯图尔特 James Stewart）经营的“房屋贷款合作公司”，他为了大多数人的梦想放弃了自己的梦想……看到最后真的很令人感动。
《白雪公主》……就不上种子了，Ben 说“他们要是看了这部电影，喝咖啡时都不好意思说出来……”同时鉴于拉塞尔·克劳是我个人最欣赏的男演员之一，推荐他的几部，可以对比一下与《美丽心灵》中差异很大的人物塑造。
《角斗士》《国家要案》《洛城机密》《三日危情》

第一讲导论—五个入门结论

Introduction: five first lessons

本讲说是五个结论，但没有想象中的那么严肃，其中结论 4 更是在开玩笑。

策略形式：行为影响结果，然而结果不仅取决于你的行为，还取决于其他人的行为。

《策略与博弈》普拉伊特·杜塔《策略》乔尔·沃森

《战略思想》 Thinking Strategically Ben 强烈推荐中文有两个版本，一个是王则柯女儿翻的《策略思维》，另一个是我们学校董志强老师翻的《妙趣横生博弈论》，作为入门书籍的确很不错。

例：成绩博弈

在你同桌不知道的前提下进行选择，若你选择 α，他选择 β，则你得 A，他得 C 若你们同时选择 α，则他们都得 B-；若你们同时选择 β，则你们都得 B+。

　　　　　　图 01-01 我方成绩图 01-02 对手成绩

　　　　　　　　　　图 01-03

单元格内，第一位是我方的成绩，第二位是对手的成绩，包含游戏所有内容的矩阵

　　　　　　　　　　图 01-04

数字表示，代表效用或者功利，更直观的反应收益 A 代表 3 个单位效用，后面以此类推只关心自己的成绩的人——Evil gits 有的书译作恶棍不论对手作出什么选择，选择 α 的收益永远优于 β 当对手选择 α 时，选择 α—0 ＞选择 β—-1 当对手选择 β 时，选择 α—3 ＞选择 β—1如果 α 的结果严格优于 β，那么 α 相对于 β 是严格优势策略

结论 1：不选择严格劣势策略，原因是每次博弈会得到更好的收益。

本案例中人们不会选择劣势策略，反而选择优势策略，使总结果变得糟糕经济学 115，导致不充分的结果（Inefficient）即帕雷托效应公认的译法是帕累托效应，这里应该叫帕累托无效率，描述资源配置无法达到最优化的状态。

经典模型：囚徒的困境 A 认罪，B 不认罪，A 释放，B 判 5 年，反之亦然。都不认罪，各判 1 年，都认罪，各判 2 年。

结论 2：理性选择导致次优的结果。

Rational choices can lead to bad outcomes.

协商难以达成目的的原因不是缺少沟通，而是没有强制力。黑手党在书面协议不受保护的地方不断壮大，作为法律强制力的补充，维系所有合同不论是否合法。

Indignant Angel 愤怒天使

参看上一个收益矩阵

（A，C）我方获得 A 成绩，对手获得 C → 3 − 4 = −1 -4：负罪感导致的负向收益（C，A）我方获得 C 成绩，对手获得 A → −1 − 2 = −3-2：无法向父母解释这样的成绩

　　　　　　　　　　图 01-05

人们在乎的东西不同了，所以得到了完全不同的。协和谬误协调问题（coordination problem），后续课程中会有更进一步讨论。

结论 3：汝欲得之，必先知之。

You can\'t get what you want , till you know what you want.

永远选择优势策略，选择非劣势策略，损失小，如果对手有优势策略则应以此作为选择策略的指导。

Evil gits VS. Indignant Angel

　　　　　　　　　　图 01-06

假设 me = Evil gits

Indignant Angel VS. Evil gits

　　　　　　　　图 01-07

假设 me = Indignant Angel站在我放的角度分析没有优势策略当对手选择 α 时，我方选择 α—0 优于选择 β—-3当对手选择 β 时，我方选择 β—1 优于选择 α—-1

结论 4：耶鲁的学生很自私。

Yale students are evil.

换位思考

当我方选择 α 时，对手选择 α—0 优于选择 β—-1 第一行红色之于蓝色当我方选择 β 时，对手选择 α—3 优于选择 β—1 第二行红色之于蓝色不论我方选择 α 还是 β，对手选择 α，都是他的优势策略那么基于对手会选择优势策略的前提，选择我方的策略：

选择 α—0 优于选择 β—-3，即第一列的黄色

结论 5：站在别人的立场去分析他们会怎么做

Put yourself in other\'s shoes and try to figure out what they will do.

选数游戏：从 1 到 100 之间选择一个号码填到下面的方框内，不要让你的同桌看到，我们会计算全班的平均数，谁选的数字最接近平均数的 2/3，谁就是赢家。

第二讲学会换位思考

Putting yourselves into other people\'sshoes

开场提到的几个案例，囚徒困境的类似博弈：合作完成家庭作业，动机每个人都想偷懒价格竞争，两家企业都想削弱对方公共问题，公共资源的使用。

对于此问题的延伸可以参阅《博弈与策略》 P85 第七章应用：公共问题如何才能形成博弈？

形成博弈要素：参与人（players），规定表述法 i 、j；

参与人的策略（strategies），规定表述法、所有可能的策略集合，区别于参与人的策略，此处用大写 S 来表示，如上节课选数游戏中， = {1,2,3 … … 100}

某一次博弈 s，不带下标的小写 s 表示，称为策略组合（a strategy profile），也称策略向量、策略列表、策略剖面）

收益（payoffs）取决于参与人 1 的策略一直到参与人 N 的策略，这些都是影响参与人 i 的的因素，当然也包括他自己的策略，记作（，…… ， …… ）简写为 ( ) ，由策略组合决定（受所有参与人策略的影响）− 除了 i 外其他参与人每人的策略，因为有时候考虑在和对手在不同选择下的收益是很有必要的。

选数游戏中以标准形式描述博弈： 5 美元 − 误差 ( ) = 0

用一个例子来熟悉使用符号语言来描述博弈

　　　　　　　　　　图 02-01

参与人：1，2
策略集合： S1 = { 上, 下 }；S2 = 左, 中, 右
收益： U1 = 上, 中 = 11；U2 = 上, 中 = 3

严格优势策略定义：

参与人 i 的策略 ’严格劣于参与人 i 的另一个策略，在其他参与者选择 − 时，
选择的收益（）严格优于此情况下 ’的收益（ ’），对所有 − 均成立。

　　　　　　　　　　图 02-02

在防御者的角度没有优势策略，而站在攻击者——汉尼拔将军的角度存在优势策略，但并非严格优势，只是一个弱优势。

引用杜塔教授给出的定义

选数游戏：具体规则见第一讲

没有写下 common knowledge 和 mutual knowledge 的区别，这是很重要的一点

剔除[ 68，100 ]，因为只有当所有人都选 100 时，100 的 2/3——66 又 2/3，才是个合理的答案。剔除劣势策略，剩余的选择[ 1，67 ]，在这样的情况下，同理 [ 45，67 ] 也被剔除了。

[ 45，67 ] 策略在原博弈中并不是弱劣势的，可是一旦我们排除掉了[ 68，100 ]，它们就成为了劣势策略，即弱劣势策略。

剔除[ 68，100 ]，是一种直接思考；同时作为一个理性参与人的选择。

剔除[ 45，67 ]，则是站在别人的角度去思考的结果，因为对手不会选择劣势策略。同时考虑到你的对手也是一个理性的参与人。

不断重复这个过程，最终会得到 1 的结果。

第三讲迭代剔除和中位选民定理

Iterative deletion and the median-votertheorem

选举案例：

假设两个候选人，一系列政治主张中，共有 10 个立场，每个政治立场都有 10%的得票，且平均分布，选民会投票给离他们最近的候选人。

当你自己选择其中一个时，获得全票，对手和你同时选择时，你们两人均分选票，非选择区域靠近那个候选人，该候选人获得全票，若该区域与两个候选人等距，则选票均分。

举例如图 03-01，参与人 1 选择 2 号立场，赢得本立场的全部选票，同时 1 号立场选民将选票全都投给离他们最近的参与人 1，同理参与人 2 赢得了 4 到 10 号立场的全部选票，在 3 号立场上，两个参与人距离相等，均分选票。若两个参与人都选择 3 号立场，结果一致。

讨论： 1 立场劣于 2 立场
1(1,1) = 50% < 1(2,1) = 90%

括号内第一位为我方选择立场，第二位为对手立场； 1(1,1)，我方选择 1 号立场，对方选择 1 号立场时，我方的收益；此处对比的是在对手选择 1 号立场时，我方选择 1 号立场与 2 号立场的区别。

1(1,2) = 10% < 1(2,2) = 50%

1(1,3) = 15% < 1(2,3) = 20%

1(1,4) = 20% < 1(2,4) = 25%

当选择立场＞2 时，选择 1 号立场劣于选择 2 号立场，5%同理可证明 9 号立场严格优于 10 号立场

当对手选择 1 号立场时，对比我方选择 2 号、3 号立场的区别：
1(2,1) = 90% < 1(3,1) = 85%

当剔除劣势策略 1 立场和策略 10 立场，选择策略 3 立场严格优于策略 2 立场。

可自行论证当对手选择 2,3，……10 时我方选择 2 号、3 号立场的区别

按照以上方式迭代剔除劣势 2 和 9；3 和 8；4 和 7；最后只剩下 5 和 6 迭代剔除劣势策略主旨在对立场的换位思考，推测对手的行为策略，同时想想对手会站在你的立场，反复此过程，最终结果往往会导致唯一的选择。

《策略与博弈》 P51-P52 正式的定义

预测结果是候选人会挤在 10 个立场中的中立地带，在政治学中这被称为中间选民定理。（Median Voter Theorem）也叫中间人投票定理，也可以通过偏好推导出来。

模型存在的问题：现实中选民并非均匀分布；选民常根据候选人的性格而非政治立场来进行投票，政治立场仅仅是单一维度；只适用于两个候选人的情况；同时存在弃权票；选民未必相信候选人所声明的立场。多维度在政治课程中有完善的模型，本课程不讨论。

“单一维度，非左即右”说到非左即右，更正式一点的说法是两难谬误，在此个人推荐一本书《学会提问——批判性思维指南（第七版）》，作者 M.Neil Brtuart Stuart M.Keele，中国轻工业出版社。严重同意！我认为此书是培养 critical thinking 的必读书

建立模型的目的：为了更好地描述事实激发灵感，模型由重要的事实抽象而来，逐步增加约束条件完善模型观察结果，比较分析结果的变化。

个人非常喜欢这个观点，和项目管理的 PDCA 循环一个道理，plan、do、check、action

最佳对策 Best Response

一般译作最优反应，相应动态博弈中先行者的策略是反应对应

施锡铨先生翻译的《策略与博弈》中采用的也是该译法，后文不再特别注释修订

在这个博弈中不存在劣势，不要采用劣势策略和迭代剔除劣势策略的方法在此不适用

选择 U 是在对手选择 L 的 BR（最优反应）选择 M 是在对手选择 R 的 BR

对手的选择 L、R 等可能（1/2,1/2），我方的收益

U： 5 × 12 + 0 × 12 = 52
M： 1 × 12 + 4 × 12 = 52
D： 4 × 12 + 2 × 12 = 3

假设不等可能（2/3，1/3）重新进行预期收益计算，可自行运算。

U M D

直线代表对手选 R 的不同概率上，我方的预期收益若对手选 R 的概率小于 X，选 U 若对手选 R 的概率大于 Y，选 M 若在 X、Y 之间则选择 D

X、Y 的解，每条直线可通过两点坐标建立直线方程，两直线联立即可得出交点坐标

解得：X=1/3

第四讲足球比赛与商业合作之最优反应

Best responses in soccer and businesspartnerships

点球博弈：

4 代表进去的概率1 , = 4 向左射门，向左扑救，进去的概率为 40%使用第三讲同样的方式在平面直角坐标系中绘制图像

红线射手从左路射门的预期收益，绿线—右路，蓝线—中路

门将右扑救射手左射门仍有 90%的入射率，考虑 10%的射飞

对图形的分析，当守门员向有扑救的概率小于 1/2 时，BR 为向右射门，在上面的图形中可以看出从中路射门永远都不是 BR。

针对彩色线条的结论：不要选择任何信念下都非最优反应的策略，即蓝色线条，在任何区间内都不是最优反应PS：此模型忽略右脚习惯

力量提高带来精准性的降低向中央射门反倒成为最优选择

大力射门出现的概率变化 8—3；3—8；7—7如虚线位置中间三角形区域对应的 X 轴区间中（即两个橘黄点间的范围）射为最优反应

最优反应参与人针对对手策略的定义：

实际上就是用 VNM 效用函数进行比较

冯·诺依曼—摩根斯坦(Von Neumann and Morgenstern)效用函数    见《策略与博弈》 P21

预期收益，此案例中，在参与人 i 持有信念 p 的情况下，他选择左路攻门的预期收益等于，门将扑向左路的概率乘以两人都选择左路下，参与人 i 的收益，在加上门将扑向右路的概率乘以门将扑向右路参与人 i 左路进攻时，参与人 i 的收益。

合伙人博弈：

两个参与人都是公司股东，各持有公司 50%的股份，供应合伙关系；每个股东要选择对公司投入精力，以“小时”表示，策略集合 Si=[0,4]，即可选择0 到 4 间任意实数“小时”的投入，这是一个连续区间，不是同于选数游戏中的只能选整数。

同理可得

根据s2的定义域（策略集合）[0,4]，绘制参与人 1 在s2情况下的 BR，即红线同理可得参与人 2 在s1情况下的 BR，即蓝线

[0，1) U (2，4]永远不会成为参与人 1 的最优反应，基于参与人不会选择劣势策略，剔除区域如下图。

同理剔除参与人 2 的非最优反应，剔除区域如图

取两个剔除区域的交集，剩下就只有中间的一小块区域

将这块小区域进行放大，如图 04-08

新生成的图像除了点坐标不同外和初始图像完全一样，再次剔除非最优反应，迭代剔除最终将归为一点。

此处介绍的边际收益与边际成本，鉴于本课程第六讲：古诺的双寡头模型中会涉及该知识，我个人将在第六讲的笔记中补充一部分经济学的知识。

存在外部性（externality）

上图中的交点即是著名的纳什均衡点，在此处参与人们都采用了自己的最优反应。

第五讲纳什均衡之坏风气与银行挤兑

Nash equilibrium: bad fashion and bankruns

纳什均衡定义：

策略组合是一个集合，该集合包含每个参与人的一个已选策略，用 1∗， 2∗，…… ∗ 表示，纳什均衡（简写为 NE—Nash Equilibrium），是满足下列条件的策略组合，对于任意一个此集合内的参与人 i ，她所选择的策略 ∗是其它参与人所选择策略的最优反应，其它参与人的策略用 −∗ 表示。

应该是最优反应，定义不能有问题啊，简单地说 NE 是一组策略，其中每个 player 所选的策略都是对其他 player 所选策略的最优反应

学习 NE 的动机：不为当时做出的决定后悔，因为已经采取了最优反应。

应该是各个 player 选择 NE 的动机；同样重要的一点是 NE 是自我实现的（self-fulfilling/self-enforcing）任何参与人都严格不会改变策略，改变策略严格不会使参与人获得增益。其他参与人不改变行为的前提下，自己改变行为并没有任何好处。

找出最优反应：

NE = （M，C）

NE 与优劣的联系：

α 严格优于 β
NE = （ α ，α ）

严格劣势永远不是最优反应，最优反应才可以出现 NE。

博弈会朝着趋向于一个均衡的方向自然发展，结果（self-enforcing）不断趋向一个NE。

寻找 NE 的一个有效方法是猜想与验证（guess and check）较劣的不投资均衡相当于较优的 NE 处于帕累托劣势协调之所以能达成在于他不同于囚徒困境，它没有去说服人们采取一个严格劣势策略。

协调博弈 coordination game 协调谬误

《美丽人生》 a wonderful life   吉米·斯图尔特 Jimmy Stewart 说服人们达成一种较优的 NE，电影种子见资源包

第六讲纳什均衡之约会游戏与古诺模型

Nash equilibrium: dating and Cournot Going to the movies

B：The Bourne Ultimatum 谍影重重

G：The Good Shepherd 特工风云

S：Snow White and the Seven Dwarfs 白雪公主

“但我课不觉得现代的女性四处游荡，等待你的白马王子出现是个好策略。”

If you are doing that strategy, take it from a Brit, most princes are as dumb as toast, not worth waiting for.

如果你真的采取这个策略，记住这句英国的俗语吧，王子和土司一样蠢，不值得你去等的。

女方想去看《谍影重重》-B，而男方则倾向于《特工风云》-G，双方谁都不像去看《白雪公主》-S，同时他们都希望两个人能一起去观影，否则没有收益。“如果两个人协调好一起去看《白雪公主》，你喝咖啡时都不好意思提这事。”

S 对两个人皆为劣势决策，剔除

资源汇总

第一讲 导论—五个入门结论

第二讲 学会换位思考

第三讲 迭代剔除和中位选民定理

第四讲 足球比赛与商业合作之最优反应

第五讲 纳什均衡之坏风气与银行挤兑