决策理论 - 爱码网

一、绪论

1. 决策就是依据客观条件在有限时间内作出符合主观要求的决定

2. 决策的考虑因素：承担风险的规模和影响时间，计划的灵活程度，对人的影响

3. 决策考虑的方面：从一个目标出发，一组备选方案，可能的后果及对应概率，方案评估

二、效用

1. 效用定义及假设

效用：效用是在有风险的情况下决策人对后果的偏好的量化

假定：任何两个可能的后果均可比较；任何不确定的后果均存在等价的确定性后果；C的引入并不改变对A、B的看法

展望：选择某一行动后的所有可能后果及其概率P=(p1, C1; p2, C2; ……; pn, Cn)

2. 效用函数估计方法

①使用确定当量进行估计，找出两个典型后果C1、C2（最好&最坏）作为基准，对于C1 ≺Ci≺C2，找出Ci~(p1, C1; 1-p, C2)，则有u(Ci)=p1u(C1)+(1-p)u(C2)，令u(C1)=1，u(C2)=0

②检验效用的一致性：计算出多个Ci的效用后，可在Ci间再构建等价关系，如C4~(p, C3; 1-p, C5)，可计算u’(C4)，与u(C4)进行比较，差距较大时需要修正

③效用函数类型判断：函数两端假设为X1、X2，0.5[u(X1)+u(X2)]和u(0.5X1+0.5X2)，前者大时为冒险型，否则保守型

三、决策准则

1. 最大最小准则（悲观）

假设决策者有m个方案，n个状态，选择行动di时可能后果为Ci1,Ci2,…,Cin，则取所有可能的后果中收益最小的记为Ci0，之后在所有Ci0中选择收益最大的C0，即C0=maximinjCij 决策理论

例如：

决策理论

2. 最小最大准则

定义后悔值ρij=maxkCkj-Cij 决策理论，每个值与同状态下最好的方案比较计算后悔值，每个方案选最大的后悔值，再选最大后悔值中的最小一个方案，即ρ0=minimaxjρij

※增加新的方案可能使原有方案的判断反转

例如：

决策理论

3. 最大最大准则（绝对乐观准则）

C0=maximaxjCij 决策理论

4. 期望值准则（知道概率分布的条件下）

对每个方案计算期望收益Ai=j=1npiCij 决策理论，然后取期望最大的方案

5. 期望机会损失准则（与期望值准则对偶，结论相同）

期望机会损失Li=j=1npiρij 决策理论，选期望机会损失最小的行动方案

6. 拉普拉斯准则

信息不完全时，假设各状态概率均匀分布，再选择期望最大的方案

7. 均值-方差准则

计算不同方案的期望与方差，J=αEX-(1-α)VX 决策理论，根据决策者自身情况确定α。

8. 目标驱动准则

决策者设定目标收益τ，使收益尽可能接近目标，同时考虑决策者的风险厌恶/风险追逐程度。如下图中k>0时表示风险厌恶，选择使J最小的Q

决策理论

四、决策树和影响图

1. 决策树

决策理论

分析步骤：

①画决策树，将发展的可能性表示出来

②预计可能的事件发生的概率（历史资料、专家估计、试验等）

③估计结果结点的盈亏值ui

④求最佳决策方案max ui

2. 影响图（表示不确定依赖关系和信息流）

包括决策节点，机会节点，价值节点（即结果），确定性节点（双框的，价值节点双框单框同义）

实线表示前一节点影响后一节点（指向机会节点），虚线表示信息流方向或决策次序（指向决策节点）

决策理论

性质：

①对一个具体问题可能存在多个影响图（如利润受收入费用影响，也可以拆分为不同产品利润之和）

②影响图可以表达不同程度的细节（如利润细化为收入与费用）

构造步骤：

①识别决策方案，画出决策节点和价值节点

②考虑价值节点的度量指标

③考虑决策节点以外影响目标的环境因素

④进一步获取关于不确定事件的信息

决策理论

五、贝叶斯决策

1. 损失函数

l(θ,d)=-u(θ,d) 决策问题在状态θ且采取的行动为d时对决策人产生的损失

如平方损失函数(θ-d)2，线性损失函数k0(θ-d), θ-d≥0; k1(θ-d), θ-d＜0

2. 决策规则

需要通过观测的X判断θ，产生决策，决策规则记为δ(X)：X⇒ 决策理论 D

类似地可定义随机决策规则δ*(X)，表示观测到X时使用D中各个d的概率

所有随机决策规则的集合记为△*（随机决策规则的空间）

3. 风险函数

给定θ情况下l(θ,δ(X))的期望值为风险函数R(θ,δ)=EXl(θ,δ(X))

决策理论

4. 贝叶斯风险

r(π,θ)=EπR(θ,δ)= EπEXl(θ,δ(X)) π(θ)为先验概率密度函数

决策理论

5. 贝叶斯公式

决策理论

6. 充分统计量

令{X1, X2, …, Xn}是一个来自密度f(x|θ)的随机样本， T＝r(X1, X2, …, Xn)是一个统计量，如果已知T(X)＝t时，X的条件分布与参数θ无关，那么T(X)称为θ的充分统计量

7. 决策原则

贝叶斯原则：贝叶斯风险小的决策规则更优

极小化极大原则：对于随机决策规则，先找每个规则下风险最大的θ时的风险，再找极大风险最小的一个（比贝叶斯原则保守）

六、信息的价值

完全信息期望值EVPI：EVPI=Eπmaxd∈Du(d,θ)-maxd∈DEπu(d,θ) 决策理论

Eπmaxd∈Du(d,θ) 决策理论表示已知具体某个θ将发生的条件下选择d的收益，对θ取期望的收益

maxd∈DEπu(d,θ) 决策理论表示只知道π(θ)的条件下通过计算期望效用选择d的最大收益

抽样信息期望值EVSI：EVSI=maxd∈DEπExu(δ(x),θ)-maxd∈DEπu(d,θ) 决策理论

maxd∈DEπExu(δ(x),θ) 决策理论表示已知某与θ相关的x的信息下选择d=δ(x)的最大收益

信息获取：

①固定样本容量：预先确定样本的容量n，贝叶斯风险为：决策理论

计算最佳样本容量n*使得决策理论

②序贯分析法：事先不指定样本的容量，每一次试验后作判断，若数据已经可以用于决策则不需要后面的样本（如产品验收次品率问题，次品数够了之后可以不用再检测）

七、多目标决策（一）

最大的问题：目标间不可公度性，目标间矛盾性

1. 目标决策分析一般步骤：

①了解问题：分析问题并提出要达到的目标

②构成问题：将整体目标细化为具体目标，及相应的影响因素

③构造模型：选择关键变量及其关系等

④分析评价：方案集A，状态集S，后果集C（A×S），目标集Y，展望集P（每个方案对应一个展望）

基于决策规则给方案排序，包括最优规则（基于某个基准将所有方案排成完全次序）和满意规则（将可行集划分为几个有序子集后，同一子集难以区分优劣）

2. 非劣解：不存在其他方案在各个属性均更优

决策理论

3. 有限方案/无限方案

有限方案可直接使用后果集（目标集×状态集）进行判断

无限方案多目标决策可表示为Max/Min f(x)=[f1(x),…,fn(x)] 其中x为决策变量向量，fi(x)为目标函数，此时需要找到一个标量函数V(f1(x),…,fn(x))将目标转为求V(·)的极值

4. 数据规范化

不同属性量纲不同，为方便统一考虑需进行规范化，可用的包括

zij=yij/i=1nyij2 决策理论，zij=yij/maxiyij ，zij=(yij-miniyij)/(maxiyij-miniyij)

zij=(maxiyij-yij)/(maxiyij-miniyij) 决策理论，

八、多目标决策（二）

1. 加权法

设有n个目标，两两比较重要性，得到n×n判断矩阵A（互反阵），其中i目标相对j目标的重要性aij=1aij≈ωi/ωj 决策理论，ωi 为目标i的权重，要求出尽可能符合判断矩阵的权重

①最小平方法：minωL=i=1nj=1naijωj-ωi2+2λ(i=1nωi-1) 决策理论

②特征向量法：判断矩阵A一致（aij=aikakj 决策理论）时(A-nI)=0，一般实际情况为(A-nI)≈0，有Aω=λmax ω 代入最大特征值λmax并使iωi=1

※一致性判断：A一致时rank(A)=1，只有一个非零特征值λmax =n，可用一致性指标（CI）μ=λmax-nn-1 决策理论，μ越小越好

2. 目标规划法

决策者先定下一个理想目标f 决策理论，则模型目标为minxdfx,f=ωjfjx-fjp1p

规划目标可写成：决策理论，p表示该字母表的优先级，ω为过偏差/欠偏差的权重

若子目标有优先级，则先优化第一优先级目标，若结果为集合则再优化下一优先级

3. 逐步求解法

①计算每个子目标的理想点及对应情况下其他子目标的值，构建支付表，可以得到理想点f*=(f1*,…,fn*) 决策理论，其中fix=j=1mcijxj

决策理论

②求调和解：（最小化距离最远的子目标）

决策理论

等价于：决策理论

决策理论

③与决策者对话：在得到一组x的解后，决策者可以进行参考并调整一些约束，从而得到新的解

4. 参考点法

目标规划基础上加入交互。决策者先给出一个目标（参考点），使用目标规划法计算最好结果，决策者根据结果调整参考点，以此迭代至决策者满意

5. Geoffrion法

假设存在统一的标量价值函数V(·)，需要寻找使V(·)最大的解。

①选择一个初始点：选择一个初始的x，计算对应的各目标函数值f

②寻找价值函数V的改进方向：对k个子目标需要两两比较计算当下ω值，若当前f=[f1,f2,f3]，可问f~[f1+Δ1,f2-Δ2,f3]，则Δ1/Δ2 决策理论为f1相对于f2的权重。使用新权重可以得到新的f并可以求出新的解x，旧解到新解的向量即为改进方向

③确定步长t：可以按改进方向划分为五等份让决策者挑选最佳步长

④如此迭代直至达到停止条件（如使用两次改进程度大小的比值）

九、马尔可夫决策

平稳马尔可夫过程：过程与初始状态无关，而只与经历时间长度有关，即

决策理论

假设转移矩阵为P，则m步状态转移矩阵为Pm。

若P为严格正矩阵（没有0或负数），则P有唯一最大特征根λ=1，使pTP=pT。转移矩阵或其若干次方中如有严格正的矩阵，则存在极限概率P∞，且其中每一行与p相同

互通：若状态i，j存在i→j及j→i（可以在不同时间），则i、j互通

遍历集：马尔科夫链中某个全部互通的子集，所有状态在同一个遍历集中时称为遍历链

遍历链包括循环链（转移矩阵大于等于0且0消除不了出现周期变化）和遍历性的马氏链（转移矩阵的若干次方全大于零）

马氏链中不属于遍历集的状态（遍历状态），称为暂态（一直进行下去遍历集外的状态概率逐渐归零）

吸引状态：马氏链中若有某个状态进入后不能再离开，则为吸引状态（遍历状态的子集）

Z变换：决策理论

选择马尔可夫链最大化收益：无限期时计算极限状态，有限期时计算总收益