一、绪论

1. 决策就是依据客观条件在有限时间内作出符合主观要求的决定

2. 决策的考虑因素:承担风险的规模和影响时间,计划的灵活程度,对人的影响

3. 决策考虑的方面:从一个目标出发,一组备选方案,可能的后果及对应概率,方案评估

 

 

 

二、效用

1. 效用定义及假设

效用:效用是在有风险的情况下决策人对后果的偏好的量化

假定:任何两个可能的后果均可比较;任何不确定的后果均存在等价的确定性后果;C的引入并不改变对A、B的看法

       展望:选择某一行动后的所有可能后果及其概率P=(p1, C1; p2, C2; ……; pn, Cn)

2. 效用函数估计方法

       ①使用确定当量进行估计,找出两个典型后果C1、C2(最好&最坏)作为基准,对于C1 ≺Ci≺C2,找出Ci~(p1, C1; 1-p, C2),则有u(Ci)=p1u(C1)+(1-p)u(C2),令u(C1)=1,u(C2)=0

       ②检验效用的一致性:计算出多个Ci的效用后,可在Ci间再构建等价关系,如C4~(p, C3; 1-p, C5),可计算u’(C4),与u(C4)进行比较,差距较大时需要修正

       ③效用函数类型判断:函数两端假设为X1、X2,0.5[u(X1)+u(X2)]和u(0.5X1+0.5X2),前者大时为冒险型,否则保守型

 

三、决策准则

1. 最大最小准则(悲观)

       假设决策者有m个方案,n个状态,选择行动di时可能后果为Ci1,Ci2,…,Cin,则取所有可能的后果中收益最小的记为Ci0,之后在所有Ci0中选择收益最大的C0,即C0=maximinjCij决策理论

       例如:

决策理论

2. 最小最大准则

       定义后悔值ρij=maxkCkj-Cij决策理论  ,每个值与同状态下最好的方案比较计算后悔值,每个方案选最大的后悔值,再选最大后悔值中的最小一个方案,即ρ0=minimaxjρij决策理论

       ※增加新的方案可能使原有方案的判断反转

       例如:

决策理论

3. 最大最大准则(绝对乐观准则)

       C0=maximaxjCij决策理论

4. 期望值准则(知道概率分布的条件下)

       对每个方案计算期望收益Ai=j=1npiCij决策理论 ,然后取期望最大的方案

5. 期望机会损失准则(与期望值准则对偶,结论相同)

       期望机会损失Li=j=1npiρij决策理论 ,选期望机会损失最小的行动方案

6. 拉普拉斯准则

       信息不完全时,假设各状态概率均匀分布,再选择期望最大的方案

7. 均值-方差准则

       计算不同方案的期望与方差,J=αEX-(1-α)VX决策理论  ,根据决策者自身情况确定α。

8. 目标驱动准则

决策者设定目标收益τ,使收益尽可能接近目标,同时考虑决策者的风险厌恶/风险追逐程度。如下图中k>0时表示风险厌恶,选择使J最小的Q

决策理论

四、决策树和影响图

1. 决策树

       决策理论

分析步骤

①画决策树,将发展的可能性表示出来

②预计可能的事件发生的概率(历史资料、专家估计、试验等)

③估计结果结点的盈亏值ui

④求最佳决策方案max ui

 

2. 影响图(表示不确定依赖关系和信息流)

       包括决策节点,机会节点,价值节点(即结果),确定性节点(双框的,价值节点双框单框同义)

       实线表示前一节点影响后一节点(指向机会节点),虚线表示信息流方向或决策次序(指向决策节点)

决策理论

性质

       ①对一个具体问题可能存在多个影响图(如利润受收入费用影响,也可以拆分为不同产品利润之和)

       ②影响图可以表达不同程度的细节(如利润细化为收入与费用)

构造步骤

       ①识别决策方案,画出决策节点和价值节点

       ②考虑价值节点的度量指标

       ③考虑决策节点以外影响目标的环境因素

       ④进一步获取关于不确定事件的信息

决策理论

 

五、贝叶斯决策

1. 损失函数

       l(θ,d)=-u(θ,d) 决策问题在状态θ且采取的行动为d时对决策人产生的损失

       如平方损失函数(θ-d)2,线性损失函数k0(θ-d), θ-d≥0; k1(θ-d), θ-d<0

2. 决策规则

       需要通过观测的X判断θ,产生决策,决策规则记为δ(X):X决策理论 D

       类似地可定义随机决策规则δ*(X),表示观测到X时使用D中各个d的概率

       所有随机决策规则的集合记为△*(随机决策规则的空间)

3. 风险函数

       给定θ情况下l(θ,δ(X))的期望值为风险函数R(θ,δ)=EXl(θ,δ(X))

决策理论

4. 贝叶斯风险

       r(π,θ)=EπR(θ,δ)= EπEXl(θ,δ(X)) π(θ)为先验概率密度函数

决策理论

5. 贝叶斯公式

决策理论

6. 充分统计量

       令{X1, X2, …, Xn}是一个来自密度f(x|θ)的随机样本, T=r(X1, X2, …, Xn)是一个统计量,如果已知T(X)=t时,X的条件分布与参数θ无关,那么T(X)称为θ的充分统计量

 

7. 决策原则

       贝叶斯原则:贝叶斯风险小的决策规则更优

       极小化极大原则:对于随机决策规则,先找每个规则下风险最大的θ时的风险,再找极大风险最小的一个(比贝叶斯原则保守)

 

六、信息的价值

完全信息期望值EVPIEVPI=EπmaxdDu(d,θ)-maxdDEπu(d,θ)决策理论

EπmaxdDu(d,θ)决策理论表示已知具体某个θ将发生的条件下选择d的收益,对θ取期望的收益

maxdDEπu(d,θ)决策理论表示只知道π(θ)的条件下通过计算期望效用选择d的最大收益

抽样信息期望值EVSIEVSI=maxdDEπExu(δ(x),θ)-maxdDEπu(d,θ)决策理论

maxdDEπExu(δ(x),θ)决策理论表示已知某与θ相关的x的信息下选择d=δ(x)的最大收益

 

信息获取

①固定样本容量:预先确定样本的容量n,贝叶斯风险为:决策理论

计算最佳样本容量n*使得决策理论

②序贯分析法:事先不指定样本的容量,每一次试验后作判断,若数据已经可以用于决策则不需要后面的样本(如产品验收次品率问题,次品数够了之后可以不用再检测)

 

 

七、多目标决策(一)

最大的问题:目标间不可公度性,目标间矛盾性

1. 目标决策分析一般步骤

       ①了解问题:分析问题并提出要达到的目标

②构成问题:将整体目标细化为具体目标,及相应的影响因素

③构造模型:选择关键变量及其关系等

④分析评价:方案集A,状态集S,后果集C(A×S),目标集Y,展望集P(每个方案对应一个展望)              

基于决策规则给方案排序,包括最优规则(基于某个基准将所有方案排成完全次序)和满意规则(将可行集划分为几个有序子集后,同一子集难以区分优劣)

2. 非劣解:不存在其他方案在各个属性均更优

决策理论

3. 有限方案/无限方案

       有限方案可直接使用后果集(目标集×状态集)进行判断

无限方案多目标决策可表示为Max/Min f(x)=[f1(x),…,fn(x)] 其中x为决策变量向量,fi(x)为目标函数,此时需要找到一个标量函数V(f1(x),…,fn(x))将目标转为求V(·)的极值

4. 数据规范化

       不同属性量纲不同,为方便统一考虑需进行规范化,可用的包括

zij=yij/i=1nyij2决策理论  ,zij=yij/maxiyij决策理论  ,zij=(yij-miniyij)/(maxiyij-miniyij)决策理论

zij=(maxiyij-yij)/(maxiyij-miniyij)决策理论  ,决策理论

 

八、多目标决策(二)

1. 加权法

       设有n个目标,两两比较重要性,得到n×n判断矩阵A(互反阵),其中i目标相对j目标的重要性aij=1aijωi/ωj决策理论  ,ωi决策理论 为目标i的权重,要求出尽可能符合判断矩阵的权重

①最小平方法:minωL=i=1nj=1naijωj-ωi2+2λ(i=1nωi-1)决策理论

②特征向量法:判断矩阵A一致(aij=aikakj决策理论 )时(A-nI)=0,一般实际情况为(A-nI)≈0,有Aω=λmax ω 代入最大特征值λmax并使iωi=1决策理论

※一致性判断:A一致时rank(A)=1,只有一个非零特征值λmax =n,可用一致性指标(CI)μ=λmax-nn-1决策理论 ,μ越小越好

2. 目标规划法

       决策者先定下一个理想目标f决策理论 ,则模型目标为minxdfx,f=ωjfjx-fjp1p决策理论

       规划目标可写成:决策理论 ,p表示该字母表的优先级,ω为过偏差/欠偏差的权重

       若子目标有优先级,则先优化第一优先级目标,若结果为集合则再优化下一优先级

3. 逐步求解法

①计算每个子目标的理想点及对应情况下其他子目标的值,构建支付表,可以得到理想点f*=(f1*,,fn*)决策理论  ,其中fix=j=1mcijxj决策理论

决策理论

       ②求调和解:(最小化距离最远的子目标)

决策理论  

等价于:决策理论

决策理论

       ③与决策者对话:在得到一组x的解后,决策者可以进行参考并调整一些约束,从而得到新的解

4. 参考点法

       目标规划基础上加入交互。决策者先给出一个目标(参考点),使用目标规划法计算最好结果,决策者根据结果调整参考点,以此迭代至决策者满意

5. Geoffrion

       假设存在统一的标量价值函数V(·),需要寻找使V(·)最大的解。

       ①选择一个初始点:选择一个初始的x,计算对应的各目标函数值f

       ②寻找价值函数V的改进方向:对k个子目标需要两两比较计算当下ω值,若当前f=[f1,f2,f3],可问f~[f1+Δ1,f2-Δ2,f3],则Δ1/Δ2决策理论 为f1相对于f2的权重。使用新权重可以得到新的f并可以求出新的解x,旧解到新解的向量即为改进方向

       ③确定步长t:可以按改进方向划分为五等份让决策者挑选最佳步长

       ④如此迭代直至达到停止条件(如使用两次改进程度大小的比值)

      

九、马尔可夫决策

平稳马尔可夫过程:过程与初始状态无关,而只与经历时间长度有关,即

决策理论

假设转移矩阵为P,则m步状态转移矩阵为Pm。

若P为严格正矩阵(没有0或负数),则P有唯一最大特征根λ=1,使pTP=pT。转移矩阵或其若干次方中如有严格正的矩阵,则存在极限概率P∞,且其中每一行与p相同

 

互通:若状态i,j存在i→j及j→i(可以在不同时间),则i、j互通

遍历集:马尔科夫链中某个全部互通的子集,所有状态在同一个遍历集中时称为遍历链

遍历链包括循环链(转移矩阵大于等于0且0消除不了出现周期变化)和遍历性的马氏链(转移矩阵的若干次方全大于零)

马氏链中不属于遍历集的状态(遍历状态),称为暂态(一直进行下去遍历集外的状态概率逐渐归零)

吸引状态:马氏链中若有某个状态进入后不能再离开,则为吸引状态(遍历状态的子集)

 

Z变换:决策理论

选择马尔可夫链最大化收益:无限期时计算极限状态,有限期时计算总收益

相关文章:

  • 2021-05-03
  • 2021-05-24
  • 2021-12-18
  • 2022-12-23
  • 2022-02-09
  • 2021-09-22
  • 2021-12-03
猜你喜欢
  • 2021-05-31
  • 2022-02-09
  • 2022-02-13
  • 2021-07-21
相关资源
相似解决方案