文章目录
- 传统的机器学习:
- ◼ “如何把我的问题映射到标准的方法”?
- 基于模型的机器学习:
- ◼ “什么是适合我的问题的好的模型”?
- 目标:用一个框架创建一系列定制的模型
- 基础的问题
- 如何表示世界P(x)
- 如何推断P(x|D)
- 如何学习模型M=argmaxF(d;m)
- 另一些
- 能够用模型去描述这些任务
- 给定观测数据能够逆向推理
- 使用概率处理不确定性
- 概率图模型PGM=概率+结构
- why图
- 直观地刻画世界
- 交流、计算、发展的语言
- 元素
- 节点–随机变量和状态
- 边——概率关系
- 分类
- 有向图(贝叶斯网络):因果关系
- 无向图(马尔科夫随机场):关联关系
- why图
1. 有向概率图模型(贝叶斯网络)
- 有向边:
- 因果关系
- 常见
- 隐马尔科夫模型
- ◼ 卡尔曼滤波
- ◼ 因子分析
- ◼ 概率主成分分析
- ◼ 独立成分分析
- ◼ 混合高斯
- ◼ 转换成分分析
- ◼ 概率专家系统
- ◼ Sigmoid 信念网络
- ◼ 层次化混合专家
- ◼ 等等
- 关注三个方面
- 概率分布–》用于查询、推断
- 表示 ------》具体实现
- 条件独立–》模型的解释
1.1 概率分布
- 一个概率图—一族概率分布
- 每个概率可以随意,是泊松还是高斯还是什么
- 每个节点对应一个
- 联合分布表示为
- 图中:
- 图中:
1.2 表示
- 贝叶斯网络使用一系列变量间局部关系紧凑地表示联合概率分布
- 空间复杂度
1.3 条件独立性
-
why有条件独立性
- 因为有边不存在
-
找条件独立性
- 使用图分离吗?
- 给定x2和x3,x1和x6独立
- 给定x1和x6,x2和x3不一定独立
- 使用图分离吗?
-
图中存在的条件独立性
- 给定一个节点的父节点,该节点和其祖先节点条件独立
- 证明
- 三个结构
- 给定一个节点的父节点,该节点和其祖先节点条件独立
-
对于第三个:已知Y,则x,z就不独立了
- P(x|y,z)!=p(x|y)
-
解释消除
1.3.2 检验条件独立算法(贝叶斯球)
- 下面图对应于已知x1、x6看x2的球可否到x3去
- 黑球已知
2. 无向图模型(马尔科夫随机场)
- 定义无向图的两种方式
- U1:通过枚举所有图上极大团的势函数的可能选项
- U2:通过生命图G上的所有条件独立断言
- Hammersley-clifford定理:U1==U2
- 对应于图G=(V,E)的一个分布具有局部马尔科夫性, 是指如果给定任意一节点的邻居,该点和其余节点条件独立
- Hammersley-Clifford定理: 如果分布是严格正并且满足局部马尔科夫性质,那么它就会像对应的图G那样分解
2.1 条件独立性
- 朴素图理论分割
- 分隔开后不可达–则无关
- 无向图和有向图能否转换?
- 不行
- 不行
2.2 概率分布
- 有向图: 利用 “局部” 参数(条件概率)去表示联合概率
- 无向图: 是否也可以用条件概率去表示联合?
- 一致性问题
- 放弃条件概率(有环所以不可以)
- 失去局部概率表示
- 保持独立地任意地选择这些函数的能力
- 保证所有重要的联合表示可以表示为局部函数的积
- 关键问题: 决定局部函数的定义域
- 条件独立: 图分隔
- ◼团(Clique)
- 图上的团是一个完全连接的节点子集
- 局部函数s不应该被定义在超出团的域上
- ◼极大团
- 图的极大团是指那些没法再增加额外点的团,否则就会不满足完全连接的性质
- 不失一般性,我们可以把局部函数定义到极大团上,因为它包含所有可能的依赖
- ◼势函数 (局部参数化)
-
: 定义在极大团????????上的势函数
- 不是边际概率,也不是条件概率
- 自然的解释:一致性,约束,能量。。。
- 将函数表示为一种无约束的形式
-
—玻尔兹曼分布(exp保证它恒正
-
—玻尔兹曼分布(exp保证它恒正
- 非负实值函数
- 势函数得到的联合概率分布
-
- –除以Z,保证p(x)是个概率,因为势函数得到的是个实数
-
-
: 定义在极大团????????上的势函数
2.3 表示
-
空间复杂度
-
why不用边际概率P(xc)作为势函数?
- 对于下图:显然有X ⊥ Z|Y
- 所以p(x,y,z)=p(y)p(x|y)p(z|y)!=P(x,y)P(z)
- P(x,y,z)!=P(x,y)P(y,z)
- 如果等于,则p(y)=0或p(y)=1(太约束了)
- –>无法用边际概率去定义
无向图的条件独立性判断
3.概率推断和学习
- 典型任务
- 任务1: 我们如何回答关于 ????????的查询, 例如,????????(????|????) ?
- 推断
- 任务 2: 我们如何基于数据D估计合理的模型 ?????
- 学习–极大似然估计(频率派)
- 贝叶斯学派(找P(M|D)–推断过程–最大后验估计
- 当不是所有的变量可观察时,即使计算M的点估计,也需要进行推断处理隐含变量
- 任务1: 我们如何回答关于 ????????的查询, 例如,????????(????|????) ?
3.1 推断
- ◼精确推断:
- ⚫ 变量消去
- ⚫ 信念传播
- ⚫ 较高的计算代价
- ◼近似推断
- ⚫ 采样
- ⚫ 变分推断
- ⚫ 较低的计算复杂度
3.1.1 变量消去法(动态规划)
-
-
-
适用于贝叶斯网络和马尔科夫网络
-
sum-product算法:
-
计算多个边际概率会有重复计算
- 信念传播法::当做传递的消息
- –从邻居得到
-
信念传递算法(一来一回双向传播–得到所有邻居)
-
联合概率
- 叶子到根得到(蓝色)
- 根到叶子(红色)
- 边际分布
-
学习
- MLE:极大似然估计–计数
- MAP:贝叶斯估计,加上伪计数(加上了先验
- 部分观察:期望最大化(EM
- 无向图无法分解
- 要先做推断得到P(x)边际化
4.HMM–>CRF
4.1 HMM–是个序列
- x-观测到的
- 条件独立
- 给定yt
- 独立
- 独立
- 给定yt
- 表示
- 状态分布:
- 状态转移矩阵A,aij为转移概率
- 发射概率
- 则联合概率
- 参数化
- 三个基础问题
- 状态序列解码(推断)问题:
- 给定
- 似然评估问题evaluate
- 给定
- 参数估计问题(学习
- 给定
- 状态序列解码(推断)问题:
4.1.1 推断问题(evaluate)
-
- 很多连乘,但是并不是跟所有的都有关,就可以往后推求和
-
-
- 其中????(????????)是产生部分输出序列 ????1, ⋯ , ????????并结束于????????的概率
- 其中β(????????)是从????????状态开始产生输出序列????????+1, ⋯ , ????????的概率
-
- 递归的计算
-
- 初始化
-
- 初始化
-
- 初始化
- 为了计算所有的yt的后验概率,需要为每一步计算alpha/beta—一次前向一次后向
- 似然函数–简单求和最终步的可得到
- 状态的后验概率–
- –>
- –>如何得到整个序列的最大后验证概率
-
4.1.2 viterbi decoding解码
-
- 结尾为时,最可能状态序列的概率
- 递归形式
- 动态规划(路径规划)问题:距离=1/p,使得cost最小
-
4.1.3 学习,参数估计
-
极大似然估计:EM算法
- 最大化
- 参数
-
-
-
M
-
-
E步
-
缺点
- 仅捕捉了状态之间和状态及其对应输出之间的关系(上下文)
- 学习目标和预测目标不匹配
- 我们只要p(y|x),但只知道p(x,y)—产生式模型
5 CRF
5.1 推断
- ◼实际上, 梯度上升收敛非常慢
- ⚫ 替代选择:
- ◆ 共轭梯度方法
- ◆ 内存受限拟牛顿法
4.PLSA
- ◼将文档中的词看做来自混合模型的采样.
- ◼每个词来自一个主题,同一个文档中不同词可能来自不同的主题.
- ◼每个文档被表示为可以被表示为主题(混合成分)的混合
- ◼对于每一个文档, 选择一个混合的主题
- ◼对于每个词, 从主题列表中采样一个词
- 学习参数
- E:
- M:更新参数
- PLSA的问题
- •不完整: 没有提供文档层面的概率建模
- •模型的参数数量随着语料规模线性增长
- •没有明确训练数据外的文档如何计算概率
5.LDA狄利克雷分布
- • LDA是对整个语料的生成式建模
- • 符号约定:
- 一个文档由????个词表示w= ????1, ????2, … , ???????? ,
- 语料D由M个文档表示D= ????????, ????????, … , ???????? ,
- V 表示词表大小.
- • 语料D 中每个文档w的生成过程:
- 采样????~Poisson (????)
- 从狄利克雷分布随机采样话题分布???? ~Dir(????)
- 对于N 个词中的每一个词???????? ∶
- (a)选择一个话题????????~????????????????????????????????????????????(????)
- (b)按????(????????|????????, ????)选择一个词????????, ????(????????|????????, ????)是给定主题????????的条件概率分布
- 其中????是???? × ????的矩阵,且???????????? = ????(???????? = 1|????????=1)
- ◼三个主题和三个词
- •LDA和PLSA的不同在于在主题的简单型上面LDA多了一个平滑的分布
[参考文献】
- •LDA和PLSA的不同在于在主题的简单型上面LDA多了一个平滑的分布
- 白板推导HMM
- 国科大prml–郭嘉丰老师ppt