资源汇总
① 视频资源:网易公开课频道 目前该站点汇集了大量的开放课程,内容丰富。
网易——耶鲁博弈论、网易耶鲁博弈论,字幕只到 16 讲,但优势在于随时可以播放,只要有网络随时可以观看,且没有广告人人影视开放课程——耶鲁博弈论上传此笔记时24 讲字幕已齐全,感觉这套字幕翻译质量很好,且保持了风格的统一,很适合学习的版本。且资源支持的下载方式多样,资源的健康程度也不错。我个人采用的即是这套资源。
资源包:
《策略与博弈论》作者:杜塔(含练习).Strategies_and_games-theory_and_practice(Dutta).pdf 英文版
课程所提到的影片:
《美丽心灵》拉塞尔·克劳和詹妮弗·康纳利搭档演绎约翰·纳什的一生,也就是本课程的核心概念纳什均衡的提出者。
《奇爱博士》库布里克三部曲之一,另外两部为《2001 太空漫游》《发条橙》《谍影重重三部曲》可以算是马特·戴蒙的代表作吧,本人最喜欢第三部。《特务风云》马特·戴蒙 Ben 的玩笑“耶鲁人都是间谍,间谍都是神经病。”《生活多美好 / 风云人物》 也就是 Ben说的《美丽人生》,也就是在第五讲最后的时候 Ben 介绍的那个挤兑问题。不过不是他说的银行而是 George Bailey(詹姆斯·斯图尔特 James Stewart)经营的“房屋贷款合作公司”,他为了大多数人的梦想放弃了自己的梦想……看到最后真的很令人感动。
《白雪公主》……就不上种子了,Ben 说“他们要是看了这部电影,喝咖啡时都不好意思说出来……”同时鉴于拉塞尔·克劳是我个人最欣赏的男演员之一,推荐他的几部,可以对比一下与《美丽心灵》中差异很大的人物塑造。
《角斗士》 《国家要案》 《洛城机密》 《三日危情》
第一讲 导论—五个入门结论
Introduction: five first lessons
本讲说是五个结论,但没有想象中的那么严肃,其中结论 4 更是在开玩笑。
策略形式:行为影响结果,然而结果不仅取决于你的行为,还取决于其他人的行为。
《策略与博弈》 普拉伊特·杜塔《策略》 乔尔·沃森
《战略思想》 Thinking Strategically Ben 强烈推荐中文有两个版本,一个是王则柯女儿翻的《策略思维》,另一个是我们学校董志强老师翻的《妙趣横生博弈论》,作为入门书籍的确很不错。
例:成绩博弈
在你同桌不知道的前提下进行选择,若你选择 α,他选择 β,则你得 A,他得 C 若你们同时选择 α,则他们都得 B-;若你们同时选择 β,则你们都得 B+。
图 01-01 我方成绩 图 01-02 对手成绩
图 01-03
单元格内,第一位是我方的成绩,第二位是对手的成绩,包含游戏所有内容的矩阵
图 01-04
数字表示,代表效用或者功利,更直观的反应收益 A 代表 3 个单位效用,后面以此类推只关心自己的成绩的人——Evil gits 有的书译作恶棍不论对手作出什么选择,选择 α 的收益永远优于 β 当对手选择 α 时,选择 α—0 > 选择 β—-1 当对手选择 β 时,选择 α—3 > 选择 β—1如果 α 的结果严格优于 β,那么 α 相对于 β 是严格优势策略
结论 1:不选择严格劣势策略,原因是每次博弈会得到更好的收益。
本案例中人们不会选择劣势策略,反而选择优势策略,使总结果变得糟糕经济学 115,导致不充分的结果(Inefficient)即帕雷托效应公认的译法是帕累托效应,这里应该叫帕累托无效率,描述资源配置无法达到最优化的状态。
经典模型:囚徒的困境 A 认罪,B 不认罪,A 释放,B 判 5 年,反之亦然。都不认罪,各判 1 年,都认罪,各判 2 年。
结论 2:理性选择导致次优的结果。
Rational choices can lead to bad outcomes.
协商难以达成目的的原因不是缺少沟通,而是没有强制力。黑手党在书面协议不受保护的地方不断壮大,作为法律强制力的补充,维系所有合同不论是否合法。
Indignant Angel 愤怒天使
参看上一个收益矩阵
(A,C)我方获得 A 成绩,对手获得 C → 3 − 4 = −1 -4:负罪感导致的负向收益(C,A)我方获得 C 成绩,对手获得 A → −1 − 2 = −3-2:无法向父母解释这样的成绩
图 01-05
人们在乎的东西不同了,所以得到了完全不同的。协和谬误 协调问题(coordination problem),后续课程中会有更进一步讨论。
结论 3:汝欲得之,必先知之。
You can\'t get what you want , till you know what you want.
永远选择优势策略,选择非劣势策略,损失小,如果对手有优势策略则应以此作为选择策略的指导。
Evil gits VS. Indignant Angel
图 01-06
假设 me = Evil gits
Indignant Angel VS. Evil gits
图 01-07
假设 me = Indignant Angel站在我放的角度分析没有优势策略当对手选择 α 时,我方选择 α—0 优于选择 β—-3当对手选择 β 时,我方选择 β—1 优于选择 α—-1
结论 4:耶鲁的学生很自私。
Yale students are evil.
换位思考
当我方选择 α 时,对手选择 α—0 优于选择 β—-1 第一行红色之于蓝色当我方选择 β 时,对手选择 α—3 优于选择 β—1 第二行红色之于蓝色不论我方选择 α 还是 β,对手选择 α,都是他的优势策略那么基于对手会选择优势策略的前提,选择我方的策略:
选择 α—0 优于选择 β—-3,即第一列的黄色
结论 5:站在别人的立场去分析他们会怎么做
Put yourself in other\'s shoes and try to figure out what they will do.
选数游戏:从 1 到 100 之间选择一个号码填到下面的方框内,不要让你的同桌看到,我们会计算全班的平均数,谁选的数字最接近平均数的 2/3,谁就是赢家。
第二讲 学会换位思考
Putting yourselves into other people\'sshoes
开场提到的几个案例,囚徒困境的类似博弈:合作完成家庭作业,动机每个人都想偷懒价格竞争,两家企业都想削弱对方公共问题,公共资源的使用。
对于此问题的延伸可以参阅《博弈与策略》 P85 第七章 应用:公共问题如何才能形成博弈?
形成博弈要素:参与人(players),规定表述法 i 、j;
参与人的策略(strategies),规定表述法 、所有可能的策略集合 ,区别于参与人的策略 ,此处用大写 S 来表示,如上节课选数游戏中, = {1,2,3 … … 100}
某一次博弈 s,不带下标的小写 s 表示,称为策略组合(a strategy profile),也称策略向量、策略列表、策略剖面)
收益(payoffs) 取决于参与人 1 的策略一直到参与人 N 的策略,这些都是影响参与人 i 的的因素,当然也包括他自己的策略,记作( ,…… , …… )简写为 ( ) ,由策略组合决定(受所有参与人策略的影响)− 除了 i 外其他参与人每人的策略,因为有时候考虑在 和对手在不同选择下的收益是很有必要的。
选数游戏中以标准形式描述博弈: 5 美元 − 误差 ( ) = 0
用一个例子来熟悉使用符号语言来描述博弈
图 02-01
参与人:1,2
策略集合: S1 = { 上, 下 };S2 = 左, 中, 右
收益: U1 = 上, 中 = 11;U2 = 上, 中 = 3
严格优势策略定义:
参与人 i 的策略 ’严格劣于参与人 i 的另一个策略 ,在其他参与者选择 − 时,
选择 的收益 ( )严格优于此情况下 ’的收益 ( ’),对所有 − 均成立。
图 02-02
在防御者的角度没有优势策略,而站在攻击者——汉尼拔将军的角度存在优势策略,但并非严格优势,只是一个弱优势。
引用杜塔教授给出的定义
选数游戏:具体规则见第一讲
没有写下 common knowledge 和 mutual knowledge 的区别,这是很重要的一点
剔除[ 68,100 ],因为只有当所有人都选 100 时,100 的 2/3——66 又 2/3,才是个合理的答案。剔除劣势策略,剩余的选择[ 1,67 ],在这样的情况下,同理 [ 45,67 ] 也被剔除了。
[ 45,67 ] 策略在原博弈中并不是弱劣势的,可是一旦我们排除掉了[ 68,100 ],它们就成为了劣势策略,即弱劣势策略。
剔除[ 68,100 ],是一种直接思考;同时作为一个理性参与人的选择。
剔除[ 45,67 ],则是站在别人的角度去思考的结果,因为对手不会选择劣势策略。同时考虑到你的对手也是一个理性的参与人。
不断重复这个过程,最终会得到 1 的结果。
第三讲 迭代剔除和中位选民定理
Iterative deletion and the median-votertheorem
选举案例:
假设两个候选人,一系列政治主张中,共有 10 个立场,每个政治立场都有 10%的得票,且平均分布,选民会投票给离他们最近的候选人。
当你自己选择其中一个时,获得全票,对手和你同时选择时,你们两人均分选票,非选择区域靠近那个候选人,该候选人获得全票,若该区域与两个候选人等距,则选票均分。
举例如图 03-01,参与人 1 选择 2 号立场,赢得本立场的全部选票,同时 1 号立场选民将选票全都投给离他们最近的参与人 1,同理参与人 2 赢得了 4 到 10 号立场的全部选票,在 3 号立场上,两个参与人距离相等,均分选票。若两个参与人都选择 3 号立场,结果一致。
讨论: 1 立场劣于 2 立场
1(1,1) = 50% < 1(2,1) = 90%
括号内第一位为我方选择立场,第二位为对手立场; 1(1,1),我方选择 1 号立场,对方选择 1 号立场时,我方的收益;此处对比的是在对手选择 1 号立场时,我方选择 1 号立场与 2 号立场的区别。
1(1,2) = 10% < 1(2,2) = 50%
1(1,3) = 15% < 1(2,3) = 20%
1(1,4) = 20% < 1(2,4) = 25%
当选择立场>2 时,选择 1 号立场劣于选择 2 号立场,5%同理可证明 9 号立场严格优于 10 号立场
当对手选择 1 号立场时,对比我方选择 2 号、3 号立场的区别:
1(2,1) = 90% < 1(3,1) = 85%
当剔除劣势策略 1 立场和策略 10 立场,选择策略 3 立场严格优于策略 2 立场。
可自行论证当对手选择 2,3,……10 时我方选择 2 号、3 号立场的区别
按照以上方式迭代剔除劣势 2 和 9;3 和 8;4 和 7;最后只剩下 5 和 6 迭代剔除劣势策略 主旨在对立场的换位思考,推测对手的行为策略,同时想想对手会站在你的立场,反复此过程,最终结果往往会导致唯一的选择。
《策略与博弈》 P51-P52 正式的定义
预测结果是候选人会挤在 10 个立场中的中立地带,在政治学中这被称为中间选民定理。(Median Voter Theorem)也叫中间人投票定理,也可以通过偏好推导出来。
模型存在的问题:现实中选民并非均匀分布;选民常根据候选人的性格而非政治立场来进行投票,政治立场仅仅是单一维度;只适用于两个候选人的情况;同时存在弃权票;选民未必相信候选人所声明的立场。多维度在政治课程中有完善的模型,本课程不讨论。
“单一维度,非左即右”说到非左即右,更正式一点的说法是两难谬误,在此个人推荐一本书《学会提问——批判性思维指南(第七版)》,作者 M.Neil Brtuart Stuart M.Keele,中国轻工业出版社。严重同意!我认为此书是培养 critical thinking 的必读书
建立模型的目的:为了更好地描述事实激发灵感,模型由重要的事实抽象而来,逐步增加约束条件完善模型观察结果,比较分析结果的变化。
个人非常喜欢这个观点,和项目管理的 PDCA 循环一个道理,plan、do、check、action
最佳对策 Best Response
一般译作最优反应,相应动态博弈中先行者的策略是反应对应
施锡铨先生翻译的《策略与博弈》中采用的也是该译法,后文不再特别注释修订
在这个博弈中不存在劣势,不要采用劣势策略和迭代剔除劣势策略的方法在此不适用
选择 U 是在对手选择 L 的 BR(最优反应)选择 M 是在对手选择 R 的 BR
对手的选择 L、R 等可能(1/2,1/2),我方的收益
U: 5 × 12 + 0 × 12 = 52
M: 1 × 12 + 4 × 12 = 52
D: 4 × 12 + 2 × 12 = 3
假设不等可能(2/3,1/3)重新进行预期收益计算,可自行运算。
U M D
直线代表对手选 R 的不同概率上,我方的预期收益若对手选 R 的概率小于 X,选 U 若对手选 R 的概率大于 Y,选 M 若在 X、Y 之间则选择 D
X、Y 的解,每条直线可通过两点坐标建立直线方程,两直线联立即可得出交点坐标
解得:X=1/3
第四讲 足球比赛与商业合作之最优反应
Best responses in soccer and businesspartnerships
点球博弈:
4 代表进去的概率1 , = 4 向左射门,向左扑救,进去的概率为 40%使用第三讲同样的方式在平面直角坐标系中绘制图像
红线射手从左路射门的预期收益,绿线—右路,蓝线—中路
门将右扑救射手左射门仍有 90%的入射率,考虑 10%的射飞
对图形的分析,当守门员向有扑救的概率小于 1/2 时,BR 为向右射门,在上面的图形中可以看出从中路射门永远都不是 BR。
针对彩色线条的结论:不要选择任何信念下都非最优反应的策略,即蓝色线条,在任何区间内都不是最优反应PS:此模型忽略右脚习惯
力量提高带来精准性的降低 向中央射门反倒成为最优选择
大力射门出现的概率变化 8—3;3—8;7—7如虚线位置中间三角形区域对应的 X 轴区间中(即两个橘黄点间的范围)射为最优反应
最优反应参与人针对对手策略的定义:
实际上就是用 VNM 效用函数进行比较
冯·诺依曼—摩根斯坦(Von Neumann and Morgenstern)效用函数 见《策略与博弈》 P21
预期收益,此案例中,在参与人 i 持有信念 p 的情况下,他选择左路攻门的预期收益等于,门将扑向左路的概率乘以两人都选择左路下,参与人 i 的收益,在加上门将扑向右路的概率乘以门将扑向右路参与人 i 左路进攻时,参与人 i 的收益。
合伙人博弈:
两个参与人都是公司股东,各持有公司 50%的股份,供应合伙关系;每个股东要选择对公司投入精力,以“小时”表示,策略集合 Si=[0,4],即可选择0 到 4 间任意实数“小时”的投入,这是一个连续区间,不是同于选数游戏中的只能选整数。
同理可得
根据s2的定义域(策略集合)[0,4],绘制参与人 1 在s2情况下的 BR,即红线同理可得参与人 2 在s1情况下的 BR,即蓝线
[0,1) U (2,4]永远不会成为参与人 1 的最优反应,基于参与人不会选择劣势策略,剔除区域如下图。
同理剔除参与人 2 的非最优反应,剔除区域如图
取两个剔除区域的交集,剩下就只有中间的一小块区域
将这块小区域进行放大,如图 04-08
新生成的图像除了点坐标不同外和初始图像完全一样,再次剔除非最优反应,迭代剔除最终将归为一点。
此处介绍的边际收益与边际成本,鉴于本课程第六讲:古诺的双寡头模型中会涉及该知识,我个人将在第六讲的笔记中补充一部分经济学的知识。
存在外部性(externality)
上图中的交点即是著名的纳什均衡点,在此处参与人们都采用了自己的最优反应。
第五讲 纳什均衡之坏风气与银行挤兑
Nash equilibrium: bad fashion and bankruns
纳什均衡定义:
策略组合是一个集合,该集合包含每个参与人的一个已选策略,用 1∗, 2∗,…… ∗ 表示,纳什均衡(简写为 NE—Nash Equilibrium),是满足下列条件的策略组合,对于任意一个此集合内的参与人 i ,她所选择的策略 ∗是其它参与人所选择策略的最优反应,其它参与人的策略用 −∗ 表示。
应该是最优反应,定义不能有问题啊,简单地说 NE 是一组策略,其中每个 player 所选的策略都是对其他 player 所选策略的最优反应
学习 NE 的动机:不为当时做出的决定后悔,因为已经采取了最优反应。
应该是各个 player 选择 NE 的动机;同样重要的一点是 NE 是自我实现的(self-fulfilling/self-enforcing)任何参与人都严格不会改变策略,改变策略严格不会使参与人获得增益。其他参与人不改变行为的前提下,自己改变行为并没有任何好处。
找出最优反应:
NE = (M,C)
NE 与优劣的联系:
α 严格优于 β
NE = ( α ,α )
严格劣势永远不是最优反应,最优反应才可以出现 NE。
博弈会朝着趋向于一个均衡的方向自然发展,结果(self-enforcing)不断趋向一个NE。
寻找 NE 的一个有效方法是猜想与验证(guess and check)较劣的不投资均衡相当于较优的 NE 处于帕累托劣势协调之所以能达成在于他不同于囚徒困境,它没有去说服人们采取一个严格劣势策略。
协调博弈 coordination game 协调谬误
《美丽人生》 a wonderful life 吉米·斯图尔特 Jimmy Stewart 说服人们达成一种较优的 NE,电影种子见资源包
第六讲 纳什均衡之约会游戏与古诺模型
Nash equilibrium: dating and Cournot Going to the movies
B:The Bourne Ultimatum 谍影重重
G:The Good Shepherd 特工风云
S:Snow White and the Seven Dwarfs 白雪公主
“但我课不觉得现代的女性四处游荡,等待你的白马王子出现是个好策略。”
If you are doing that strategy, take it from a Brit, most princes are as dumb as toast, not worth waiting for.
如果你真的采取这个策略,记住这句英国的俗语吧,王子和土司一样蠢,不值得你去等的。
女方想去看《谍影重重》-B,而男方则倾向于《特工风云》-G,双方谁都不像去看《白雪公主》-S,同时他们都希望两个人能一起去观影,否则没有收益。“如果两个人协调好一起去看《白雪公主》,你喝咖啡时都不好意思提这事。”
S 对两个人皆为劣势决策,剔除