一、绪论
1. 决策就是依据客观条件在有限时间内作出符合主观要求的决定
2. 决策的考虑因素:承担风险的规模和影响时间,计划的灵活程度,对人的影响
3. 决策考虑的方面:从一个目标出发,一组备选方案,可能的后果及对应概率,方案评估
二、效用
1. 效用定义及假设
效用:效用是在有风险的情况下决策人对后果的偏好的量化
假定:任何两个可能的后果均可比较;任何不确定的后果均存在等价的确定性后果;C的引入并不改变对A、B的看法
展望:选择某一行动后的所有可能后果及其概率P=(p1, C1; p2, C2; ……; pn, Cn)
2. 效用函数估计方法
①使用确定当量进行估计,找出两个典型后果C1、C2(最好&最坏)作为基准,对于C1 ≺Ci≺C2,找出Ci~(p1, C1; 1-p, C2),则有u(Ci)=p1u(C1)+(1-p)u(C2),令u(C1)=1,u(C2)=0
②检验效用的一致性:计算出多个Ci的效用后,可在Ci间再构建等价关系,如C4~(p, C3; 1-p, C5),可计算u’(C4),与u(C4)进行比较,差距较大时需要修正
③效用函数类型判断:函数两端假设为X1、X2,0.5[u(X1)+u(X2)]和u(0.5X1+0.5X2),前者大时为冒险型,否则保守型
三、决策准则
1. 最大最小准则(悲观)
假设决策者有m个方案,n个状态,选择行动di时可能后果为Ci1,Ci2,…,Cin,则取所有可能的后果中收益最小的记为Ci0,之后在所有Ci0中选择收益最大的C0,即C0=maximinjCij
例如:
2. 最小最大准则
定义后悔值ρij=maxkCkj-Cij ,每个值与同状态下最好的方案比较计算后悔值,每个方案选最大的后悔值,再选最大后悔值中的最小一个方案,即ρ0=minimaxjρij
※增加新的方案可能使原有方案的判断反转
例如:
3. 最大最大准则(绝对乐观准则)
C0=maximaxjCij
4. 期望值准则(知道概率分布的条件下)
对每个方案计算期望收益Ai=j=1npiCij ,然后取期望最大的方案
5. 期望机会损失准则(与期望值准则对偶,结论相同)
期望机会损失Li=j=1npiρij ,选期望机会损失最小的行动方案
6. 拉普拉斯准则
信息不完全时,假设各状态概率均匀分布,再选择期望最大的方案
7. 均值-方差准则
计算不同方案的期望与方差,J=αEX-(1-α)VX ,根据决策者自身情况确定α。
8. 目标驱动准则
决策者设定目标收益τ,使收益尽可能接近目标,同时考虑决策者的风险厌恶/风险追逐程度。如下图中k>0时表示风险厌恶,选择使J最小的Q
四、决策树和影响图
1. 决策树
分析步骤:
①画决策树,将发展的可能性表示出来
②预计可能的事件发生的概率(历史资料、专家估计、试验等)
③估计结果结点的盈亏值ui
④求最佳决策方案max ui
2. 影响图(表示不确定依赖关系和信息流)
包括决策节点,机会节点,价值节点(即结果),确定性节点(双框的,价值节点双框单框同义)
实线表示前一节点影响后一节点(指向机会节点),虚线表示信息流方向或决策次序(指向决策节点)
性质:
①对一个具体问题可能存在多个影响图(如利润受收入费用影响,也可以拆分为不同产品利润之和)
②影响图可以表达不同程度的细节(如利润细化为收入与费用)
构造步骤:
①识别决策方案,画出决策节点和价值节点
②考虑价值节点的度量指标
③考虑决策节点以外影响目标的环境因素
④进一步获取关于不确定事件的信息
五、贝叶斯决策
1. 损失函数
l(θ,d)=-u(θ,d) 决策问题在状态θ且采取的行动为d时对决策人产生的损失
如平方损失函数(θ-d)2,线性损失函数k0(θ-d), θ-d≥0; k1(θ-d), θ-d<0
2. 决策规则
需要通过观测的X判断θ,产生决策,决策规则记为δ(X):X⇒ D
类似地可定义随机决策规则δ*(X),表示观测到X时使用D中各个d的概率
所有随机决策规则的集合记为△*(随机决策规则的空间)
3. 风险函数
给定θ情况下l(θ,δ(X))的期望值为风险函数R(θ,δ)=EXl(θ,δ(X))
4. 贝叶斯风险
r(π,θ)=EπR(θ,δ)= EπEXl(θ,δ(X)) π(θ)为先验概率密度函数
5. 贝叶斯公式
6. 充分统计量
令{X1, X2, …, Xn}是一个来自密度f(x|θ)的随机样本, T=r(X1, X2, …, Xn)是一个统计量,如果已知T(X)=t时,X的条件分布与参数θ无关,那么T(X)称为θ的充分统计量
7. 决策原则
贝叶斯原则:贝叶斯风险小的决策规则更优
极小化极大原则:对于随机决策规则,先找每个规则下风险最大的θ时的风险,再找极大风险最小的一个(比贝叶斯原则保守)
六、信息的价值
完全信息期望值EVPI:EVPI=Eπmaxd∈Du(d,θ)-maxd∈DEπu(d,θ)
Eπmaxd∈Du(d,θ)表示已知具体某个θ将发生的条件下选择d的收益,对θ取期望的收益
maxd∈DEπu(d,θ)表示只知道π(θ)的条件下通过计算期望效用选择d的最大收益
抽样信息期望值EVSI:EVSI=maxd∈DEπExu(δ(x),θ)-maxd∈DEπu(d,θ)
maxd∈DEπExu(δ(x),θ)表示已知某与θ相关的x的信息下选择d=δ(x)的最大收益
信息获取:
①固定样本容量:预先确定样本的容量n,贝叶斯风险为:
计算最佳样本容量n*使得
②序贯分析法:事先不指定样本的容量,每一次试验后作判断,若数据已经可以用于决策则不需要后面的样本(如产品验收次品率问题,次品数够了之后可以不用再检测)
七、多目标决策(一)
最大的问题:目标间不可公度性,目标间矛盾性
1. 目标决策分析一般步骤:
①了解问题:分析问题并提出要达到的目标
②构成问题:将整体目标细化为具体目标,及相应的影响因素
③构造模型:选择关键变量及其关系等
④分析评价:方案集A,状态集S,后果集C(A×S),目标集Y,展望集P(每个方案对应一个展望)
基于决策规则给方案排序,包括最优规则(基于某个基准将所有方案排成完全次序)和满意规则(将可行集划分为几个有序子集后,同一子集难以区分优劣)
2. 非劣解:不存在其他方案在各个属性均更优
3. 有限方案/无限方案
有限方案可直接使用后果集(目标集×状态集)进行判断
无限方案多目标决策可表示为Max/Min f(x)=[f1(x),…,fn(x)] 其中x为决策变量向量,fi(x)为目标函数,此时需要找到一个标量函数V(f1(x),…,fn(x))将目标转为求V(·)的极值
4. 数据规范化
不同属性量纲不同,为方便统一考虑需进行规范化,可用的包括
zij=yij/i=1nyij2 ,zij=yij/maxiyij
,zij=(yij-miniyij)/(maxiyij-miniyij)
zij=(maxiyij-yij)/(maxiyij-miniyij) ,
八、多目标决策(二)
1. 加权法
设有n个目标,两两比较重要性,得到n×n判断矩阵A(互反阵),其中i目标相对j目标的重要性aij=1aij≈ωi/ωj ,ωi
为目标i的权重,要求出尽可能符合判断矩阵的权重
①最小平方法:minωL=i=1nj=1naijωj-ωi2+2λ(i=1nωi-1)
②特征向量法:判断矩阵A一致(aij=aikakj )时(A-nI)=0,一般实际情况为(A-nI)≈0,有Aω=λmax ω 代入最大特征值λmax并使iωi=1
※一致性判断:A一致时rank(A)=1,只有一个非零特征值λmax =n,可用一致性指标(CI)μ=λmax-nn-1 ,μ越小越好
2. 目标规划法
决策者先定下一个理想目标f ,则模型目标为minxdfx,f=ωjfjx-fjp1p
规划目标可写成: ,p表示该字母表的优先级,ω为过偏差/欠偏差的权重
若子目标有优先级,则先优化第一优先级目标,若结果为集合则再优化下一优先级
3. 逐步求解法
①计算每个子目标的理想点及对应情况下其他子目标的值,构建支付表,可以得到理想点f*=(f1*,…,fn*) ,其中fix=j=1mcijxj
②求调和解:(最小化距离最远的子目标)
等价于:
③与决策者对话:在得到一组x的解后,决策者可以进行参考并调整一些约束,从而得到新的解
4. 参考点法
目标规划基础上加入交互。决策者先给出一个目标(参考点),使用目标规划法计算最好结果,决策者根据结果调整参考点,以此迭代至决策者满意
5. Geoffrion法
假设存在统一的标量价值函数V(·),需要寻找使V(·)最大的解。
①选择一个初始点:选择一个初始的x,计算对应的各目标函数值f
②寻找价值函数V的改进方向:对k个子目标需要两两比较计算当下ω值,若当前f=[f1,f2,f3],可问f~[f1+Δ1,f2-Δ2,f3],则Δ1/Δ2 为f1相对于f2的权重。使用新权重可以得到新的f并可以求出新的解x,旧解到新解的向量即为改进方向
③确定步长t:可以按改进方向划分为五等份让决策者挑选最佳步长
④如此迭代直至达到停止条件(如使用两次改进程度大小的比值)
九、马尔可夫决策
平稳马尔可夫过程:过程与初始状态无关,而只与经历时间长度有关,即
假设转移矩阵为P,则m步状态转移矩阵为Pm。
若P为严格正矩阵(没有0或负数),则P有唯一最大特征根λ=1,使pTP=pT。转移矩阵或其若干次方中如有严格正的矩阵,则存在极限概率P∞,且其中每一行与p相同
互通:若状态i,j存在i→j及j→i(可以在不同时间),则i、j互通
遍历集:马尔科夫链中某个全部互通的子集,所有状态在同一个遍历集中时称为遍历链
遍历链包括循环链(转移矩阵大于等于0且0消除不了出现周期变化)和遍历性的马氏链(转移矩阵的若干次方全大于零)
马氏链中不属于遍历集的状态(遍历状态),称为暂态(一直进行下去遍历集外的状态概率逐渐归零)
吸引状态:马氏链中若有某个状态进入后不能再离开,则为吸引状态(遍历状态的子集)
Z变换:
选择马尔可夫链最大化收益:无限期时计算极限状态,有限期时计算总收益