国科大prml13-概率图

传统的机器学习:
- ◼ “如何把我的问题映射到标准的方法”?
基于模型的机器学习:
- ◼ “什么是适合我的问题的好的模型”?
目标：用一个框架创建一系列定制的模型
基础的问题
1. 如何表示世界P(x)
2. 如何推断P(x|D)
3. 如何学习模型M=argmaxF(d;m)
另一些
1. 能够用模型去描述这些任务
2. 给定观测数据能够逆向推理
3. 使用概率处理不确定性
概率图模型PGM=概率+结构
- why图
  - 直观地刻画世界
  - 交流、计算、发展的语言
- 元素
  - 节点–随机变量和状态
  - 边——概率关系
- 分类
  - 有向图（贝叶斯网络）：因果关系
  - 无向图（马尔科夫随机场）：关联关系

国科大prml13-概率图

1. 有向概率图模型（贝叶斯网络）

有向边：
- 因果关系
常见
- 隐马尔科夫模型
- ◼ 卡尔曼滤波
- ◼ 因子分析
- ◼ 概率主成分分析
- ◼ 独立成分分析
- ◼ 混合高斯
- ◼ 转换成分分析
- ◼ 概率专家系统
- ◼ Sigmoid 信念网络
- ◼ 层次化混合专家
- ◼ 等等
关注三个方面
- 概率分布–》用于查询、推断
- 表示 ------》具体实现
- 条件独立–》模型的解释

1.1 概率分布

一个概率图—一族概率分布
- 每个概率可以随意，是泊松还是高斯还是什么
每个节点对应一个 $P(x_i|x_{\pi_i}),x_{\pi_i}是x_i的父节点$
联合分布表示为 $P(x_1,x_2,...,x_n)=\Pi_{i=1}^n P(x_i|x_{\pi_i})$
- 图中： $P(x_1,x_2,x_3,x_4,x_5,x_6)=P(x_1)P(x_2|x_1)P(x_3|x_1)P(x_4|x_2)P(x_5|x_3)P(x_6|x_2,x_5)$

1.2 表示

贝叶斯网络使用一系列变量间局部关系紧凑地表示联合概率分布
空间复杂度 $O(2^n)-->O(n*2^k)$

1.3 条件独立性

why有条件独立性
- 因为有边不存在
找条件独立性
- 使用图分离吗？
  1. 给定x2和x3，x1和x6独立
  2. 给定x1和x6，x2和x3不一定独立
图中存在的条件独立性
1. 给定一个节点的父节点，该节点和其祖先节点条件独立
  - $P(x_i ⊥ x_{v_i}|x_{\pi_i})$
  - 证明 $x_4⊥{x_1,x_3}$
    - $P(x_1,x_2,x_3,x_4)=\Sigma_{x_5}\Sigma_{x_6}P(x_1,x_2,x_3,x_4,x_5,x_6)=P(x_1)P(x_2|x_1)P(x_3|x_1)P(x_4|x_2)\Sigma_{x_5}P(x_5|x_3)\Sigma_{x_6}P(x_6|x_2,x_5)=P(x_1)P(x_2|x_1)P(x_3|x_1)P(x_4|x_2)$
    - $P(x_1,x_2,x_3)=\Sigma_{x_4}P(x_1)P(x_2|x_1)P(x_3|x_1)P(x_4|x_2)=P(x_1)P(x_2|x_1)P(x_3|x_1)$
    - $P(x_4|x_1,x_2,x_3)=P(x_1,x_2,x_3,x_4)/P(x_1,x_2,x_3)=P(x_4|x_2)$
2. 三个结构
对于第三个:已知Y,则x,z就不独立了
- P(x|y,z)!=p(x|y)
解释消除

1.3.2 检验条件独立算法（贝叶斯球）

国科大prml13-概率图

下面图对应于已知x1、x6看x2的球可否到x3去
- 黑球已知

2. 无向图模型（马尔科夫随机场）

定义无向图的两种方式
1. U1:通过枚举所有图上极大团的势函数的可能选项
2. U2：通过生命图G上的所有条件独立断言
- Hammersley-clifford定理：U1==U2
对应于图G=(V,E)的一个分布具有局部马尔科夫性, 是指如果给定任意一节点的邻居，该点和其余节点条件独立
Hammersley-Clifford定理: 如果分布是严格正并且满足局部马尔科夫性质，那么它就会像对应的图G那样分解

2.1 条件独立性

朴素图理论分割
- 分隔开后不可达–则无关
无向图和有向图能否转换？
- 不行

2.2 概率分布

有向图: 利用 “局部” 参数（条件概率）去表示联合概率
无向图: 是否也可以用条件概率去表示联合?
- 一致性问题
放弃条件概率(有环所以不可以）
- 失去局部概率表示
- 保持独立地任意地选择这些函数的能力
- 保证所有重要的联合表示可以表示为局部函数的积
关键问题: 决定局部函数的定义域
- 条件独立: 图分隔
◼团（Clique）
- 图上的团是一个完全连接的节点子集
- 局部函数s不应该被定义在超出团的域上
◼极大团
- 图的极大团是指那些没法再增加额外点的团，否则就会不满足完全连接的性质
- 不失一般性，我们可以把局部函数定义到极大团上，因为它包含所有可能的依赖
◼势函数 (局部参数化)
- $\phi_{x_c}(x_c)$ : 定义在极大团????????上的势函数
  - 不是边际概率，也不是条件概率
  - 自然的解释：一致性，约束，能量。。。
  - 将函数表示为一种无约束的形式
    - $P(x)=\frac{1}{Z}\Pi_{c\in C} \phi_{X_c}(x_c)=\frac{1}{Z}\Pi_{c\in C} exp(-H_C(X_C))=\frac{1}{Z} exp(-\Sigma_{c\in C}H_C(X_C))=\frac{1}{Z} exp(-H(x))$ —玻尔兹曼分布（exp保证它恒正
      - $Z=\Sigma_x\Pi_{c\in C} \phi_{X_c}(x_c)=\Sigma_x exp(-H(x))$
- 非负实值函数
- 势函数得到的联合概率分布
  - $P(x)=\frac{1}{Z}\Pi_{c\in C} \phi_{X_c}(x_c)$
    - $Z=\Sigma_x\Pi_{c\in C} \phi_{X_c}(x_c)$ –除以Z,保证p(x)是个概率，因为势函数得到的是个实数

2.3 表示

空间复杂度 $O(2^n)-->O(r*2^k),r-团的数目$
why不用边际概率P(xc)作为势函数？
- $P(x)=\frac{1}{Z}\Pi_{c\in C} \phi_{X_c}(x_c)$
- 对于下图：显然有X ⊥ Z|Y
  - 所以p(x,y,z)=p(y)p(x|y)p(z|y)!=P(x,y)P(z)
- P(x,y,z)!=P(x,y)P(y,z)
  - 如果等于，则p(y)=0或p(y)=1（太约束了）
- –>无法用边际概率去定义

无向图的条件独立性判断

国科大prml13-概率图

3.概率推断和学习

典型任务
- 任务1: 我们如何回答关于 ????????的查询, 例如,????????(????|????) ?
  - 推断
- 任务 2: 我们如何基于数据D估计合理的模型 ?????
  - 学习–极大似然估计（频率派）
  - 贝叶斯学派（找P(M|D)–推断过程–最大后验估计
  - 当不是所有的变量可观察时，即使计算M的点估计，也需要进行推断处理隐含变量

3.1 推断

国科大prml13-概率图

◼精确推断:
- ⚫ 变量消去
- ⚫ 信念传播
- ⚫ 较高的计算代价
◼近似推断
- ⚫ 采样
- ⚫ 变分推断
- ⚫ 较低的计算复杂度

3.1.1 变量消去法(动态规划）

$P(x_1,x_2,x_3,x_4,x_5)=P(x_1)P(x_2|x_1)P(x_3|x_2)P(x_4|x_3)P(x_5|x_3)$
$P(x_5)=\Sigma_{x_1,x_2,x_3,x_4} P(x_1,x_2,x_3,x_4,x_5)=\Sigma_{x_1,x_2,x_3,x_4} P(x_1)P(x_2|x_1)P(x_3|x_2)P(x_4|x_3)P(x_5|x_3)$
- $=\Sigma_{x_3}P(x_5|x_3)\Sigma_{x_4}P(x_4|x_3)\Sigma_{x_2}(x_3|x_2)\Sigma_{x_1} P(x_1)P(x_2|x_1)$
- $=\Sigma_{x_3}P(x_5|x_3)\Sigma_{x_4}P(x_4|x_3)\Sigma_{x_2}(x_3|x_2)m_{12}(x_2)$
- $=\Sigma_{x_3}P(x_5|x_3)\Sigma_{x_4}P(x_4|x_3)m_{23}(x_3)$
- $=\Sigma_{x_3}P(x_5|x_3)m_{43}(x_3)m_{23}(x_3)$
- $=m_{35}(x_5)$
适用于贝叶斯网络和马尔科夫网络
sum-product算法： $m_{i->j}(x_j)=\Sigma_{x_i}\phi(x_i,x_j)\Pi_{k\in n(i)/j} m_{ki}(x_i)$
计算多个边际概率会有重复计算
- 信念传播法：： $m_{i->j}(x_j)$ 当做传递的消息
- $p(x_i)---\Pi_{k\in n(i) }m_{ki}(x_i)$ –从邻居得到
信念传递算法（一来一回双向传播–得到所有邻居）
联合概率 $P(x_1,x_2,...,x_5)=\frac{1}{Z}\phi_{12}(x_1,x_2)\phi_{23}(x_2,x_3)\phi_{34}(x_3,x_4)\phi_{35}(x_3,x_5)$
- $Z=\Sigma_x\phi_{12}(x_1,x_2)\phi_{23}(x_2,x_3)\phi_{34}(x_3,x_4)\phi_{35}(x_3,x_5)$
- 叶子到根得到（蓝色）
  - $m_{43}(x_3)=\Sigma_{x_4} \phi(x_4,x_3)$
  - $m_{53}(x_3)=\Sigma_{x_5}) \phi(x_5,x_3)$
  - $m_{32}(x_2)=\Sigma_{x_3} \phi(x_3,x_2)m_{43}m_{53}$
  - $m_{21}(x_1)=\Sigma_{x_2} \phi(x_2,x_1)m_{32}$
- 根到叶子（红色）
  - $m_{12}(x_2)=\Sigma_{x_1}\phi(x_1,x_2)$
  - $m_{23}(x_3)=\Sigma_{x_2} \phi(x_3,x_2)m_{12}$
  - $m_{34}(x_4)=\Sigma_{x_3} \phi(x_4,x_3)m_{23}m_{53}$
  - $m_{35}(x_5)=\Sigma_{x_3} \phi(x_5,x_3)m_{23}m_{43}$
- 边际分布
  - $P(x_1)--m_{21}(x_1)$
  - $P(x_2)--m_{12}(x_2)m_{32}(x_2)$
  - $P(x_3)--m_{23}(x_3)m_{43}(x_3)m_{53}(x_3)$
  - $P(x_4)--m_{34}(x_4)$
  - $P(x_5)--m_{35}(x_5)$
学习
- $l(\theta;D)=logP(D|\theta)=log(\Pi_n(\Pi_ip(x_{n,i}|x_{n,\pi_i,\theta_i})))=\Sigma_i\Sigma_n log(p(x_{n,i}|x_{n,\pi_i,\theta_i}))$
- MLE:极大似然估计–计数
- MAP:贝叶斯估计，加上伪计数（加上了先验
- 部分观察：期望最大化（EM
- 无向图无法分解
  - 要先做推断得到P(x)边际化

4.HMM–>CRF

4.1 HMM–是个序列

国科大prml13-概率图

x-观测到的
条件独立
- 给定yt
  - $y_{t-1}和y_{t+1}(所有的过去和未来也都独立）$ 独立
  - $x_{u}和x_{s}$ 独立
表示
- 状态分布： $\pi_i=p(y_1^i=1)$
- 状态转移矩阵A，aij为转移概率
  - $P(y_{t+1}^j|y_t^i=1)$
- 发射概率 $P(x|y)$
- 则联合概率 $P(x,y)=p(y_1)\Pi_{t=1}^{T-1}P(y_{t+1}^j|y_t^i)\Pi_{t=1}^{T}P(x_t|y_t)$
  - 参数化 $P(x,y)=\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)$
三个基础问题
1. 状态序列解码（推断）问题：
  - 给定 $x,\theta-->y:p(y|x,\theta)$
2. 似然评估问题evaluate
  - 给定 $x,\theta --> 似然函数P(x|\theta)$
3. 参数估计问题(学习
  - 给定 $x --> \theta=argmax P(x|\theta)$

4.1.1 推断问题（evaluate）

国科大prml13-概率图

$P(x)=\Sigma_{y_1,y_2,...,y_T} P(x,y)=\Sigma_{y_1,y_2,...,y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)\\=\Sigma_y P(x|y)p(y)\\=\Sigma_{y_1}\Sigma_{y_2}...\Sigma_{y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)$
- $y_i=\{q_1,q_2,...,q_N\}---O(N^T)太$
- 很多连乘，但是并不是跟所有的都有关，就可以往后推求和
$P(y_t|x)=\frac{P(x|y_t)P(y_t)}{P(x)}=\frac{P(x1,...,x_t|y_t)P(x_{t+1},...,x_n|y_t)P(y_t)}{P(x)}$
- $P(y_t|x)=\gamma(y_t)=\frac{P(x1,...,x_t,y_t)P(x_{t+1},...,x_n|y_t)}{P(x)}=\frac{\alpha(y_t)\beta(y_t)}{P(x)}$
  - $p(x)=\Sigma_{y_t}\alpha(y_t)\beta(y_t)$
  - 其中????(????????)是产生部分输出序列 ????1, ⋯ , ????????并结束于????????的概率
  - 其中β(????????)是从????????状态开始产生输出序列????????+1, ⋯ , ????????的概率
递归的计算
- $\alpha(y_{t+1})=\Sigma_{y_t}\alpha(y_t)a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1})$
  - 初始化 $\alpha(y_0)=P(x_0,y_0)=p(x_0|y_0)P(y_0)=P(x_0|y_0)\pi_{y_0}$
- $\beta(y_{t})=\Sigma_{y_{t+1}}\beta(y_{t+1})a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1})$
  - 初始化 $\beta(y_T)=1就行了$
    - $假定\beta(y_T)为单位向量，我们可以准确计算出\beta_{y_{T-1}}$
      - $P(x)=\Sigma_i\alpha(y_T^i)\beta(y_T^i)=\Sigma_i \alpha(y_T^i)=P(x)$
- 为了计算所有的yt的后验概率，需要为每一步计算alpha/beta—一次前向一次后向
- $\xi(y_t,y_{t+1})=P(y_t,y_{t+1}|x)\\=\frac{P(x|y_t,y_{t+1})P(y_{t+1}|y_t)P(y_t)}{p(x)}\\=\frac{P(x1,...x_t|y_t)P(x_{t+1}|y_{t+1})P(x_{t+2},...x_n|y_{t+1})P(y_{t+1}|y_t)P(y_t)}{p(x)}\\=\frac{\alpha(y_t)P(x_{t+1}|y_{t+1})\beta(y_{t+1})a_{y_{t+1},y_t}}{p(x)}$
- 似然函数–简单求和最终步的 $\alpha$ 可得到
- 状态的后验概率– $再使用\beta递归$
- –> $P(y_t^k=1|x)=\frac{\alpha(y_t)\beta(y_t)}{P(x)}$
- –>如何得到整个序列的最大后验证概率

4.1.2 viterbi decoding解码

$y*=argmax_y P(y|x)=argmax_y P(x,y)$
$V_t^k=max_{y_1,...,y_{t-1}} P(x_1,...,x_{t-1},y_1,...,y_{t-1},x_t,y_t^k=1)$
- 结尾为 $y_t=k$ 时，最可能状态序列的概率
- 递归形式 $V_t^k=p(x_t|y_t^k=1)max_i V_{t-1}^ia_{i,k}\\a_{i,k}=p(y_ik|y_i):i->k$
- 动态规划（路径规划）问题：距离=1/p，使得cost最小
- $V_t^k：t时刻，y_t=k--到达q_k状态\\max_{y_1,...,y_{t-1}} 终点已经确定，路径没有确定，找概率最大的路径$

4.1.3 学习，参数估计

极大似然估计：EM算法
- 最大化 $P(x|\theta)$
- 参数 $A、\pi,输出分布的参数$
$P(x|\theta)=\Sigma_{y_1,y_2,...,y_T} P(x,y)=\Sigma_{y_1,y_2,...,y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t,\eta)$
$假设P(x_t|y_t,\eta)=\Pi_{i=1}^M \Pi_{j=1}^L[\eta_{ij}]^{y_t^ix_t^j}$
M
$\hat{\alpha}_{ij}=\frac{m_{ij}}{\Sigma_{k=1}^N m_{ik}}\\ \hat{\eta}_{ij}=\frac{n_{ij}}{\Sigma_{k=1}^N n_{ik}}\\ \hat{\pi}_i=y_1^i$
E步
缺点
- 仅捕捉了状态之间和状态及其对应输出之间的关系（上下文）
- 学习目标和预测目标不匹配
  - 我们只要p(y|x),但只知道p(x,y)—产生式模型

5 CRF

国科大prml13-概率图

5.1 推断

国科大prml13-概率图

◼实际上, 梯度上升收敛非常慢
⚫ 替代选择:
- ◆ 共轭梯度方法
- ◆ 内存受限拟牛顿法

4.PLSA

◼将文档中的词看做来自混合模型的采样.
◼每个词来自一个主题，同一个文档中不同词可能来自不同的主题.
◼每个文档被表示为可以被表示为主题（混合成分）的混合
◼对于每一个文档, 选择一个混合的主题
◼对于每个词, 从主题列表中采样一个词
$p(d,w_n)=p(d)p(w|d)=p(d)\Sigma_z p(W_n|z)p(z|d)=\Sigma_z p(z)p(d|z)p(w|z)\\p(z|w,d)=\frac{\Sigma_z p(z)p(d|z)p(w|z)}{\Sigma_{z'} p(z')p(d|z')p(w|z')}$
学习参数
- E: $p(z|w,d)=\frac{\Sigma_z p(z)p(d|z)p(w|z)}{\Sigma_{z'} p(z')p(d|z')p(w|z')}$
- M：更新参数 $p(w|z)∝\Sigma_d n(d,w)p(z|w,d)\\p(d|z)∝\Sigma_w n(d,w)p(z|w,d)\\p(z)∝\Sigma_d\Sigma_w n(d,w)p(z|w,d)$
PLSA的问题
- •不完整: 没有提供文档层面的概率建模
- •模型的参数数量随着语料规模线性增长
- •没有明确训练数据外的文档如何计算概率

5.LDA狄利克雷分布

• LDA是对整个语料的生成式建模
• 符号约定:
- 一个文档由????个词表示w= ????1, ????2, … , ???????? ,
- 语料D由M个文档表示D= ????????, ????????, … , ???????? ,
- V 表示词表大小.
• 语料D 中每个文档w的生成过程:
1. 采样????~Poisson (????)
2. 从狄利克雷分布随机采样话题分布???? ~Dir(????) $p(\theta|\alpha)=\frac{\Gamma(\Sigma_{i=1}^k \alpha_i)}{\Pi_{i=1}^k\Gamma(\alpha_i)}\theta_1^{\alpha_1=1}\theta_2^{\alpha_2=1}...\theta_k^{\alpha_k=1}$
3. 对于N 个词中的每一个词???????? ∶
  - (a)选择一个话题????????~????????????????????????????????????????????(????)
  - (b)按????(????????|????????, ????)选择一个词????????, ????(????????|????????, ????)是给定主题????????的条件概率分布
  - 其中????是???? × ????的矩阵，且???????????? = ????(???????? = 1|????????=1)
◼三个主题和三个词
- •LDA和PLSA的不同在于在主题的简单型上面LDA多了一个平滑的分布
  [参考文献】