2.1章里涉及的x只有两个值:0/1,这太少了,这章允许x有K个离散的值。

它对x取这K个值得表示是用一个k维向量表示的,x也就变成了一个k维向量。例:如果x取值是k个值中的第三个,则表示为:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

注意,x向量中的1只能有1个,体会一下他的实际意义,这样才能代表K个离散的值。

所以对某个特定的x出现的概率可以表示为:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

其中"模式识别与机器学习"读书笔记——2.2 Multinomial Variables,对应x向量中每一个位置上出现1的概率。

期望为:(由于x是个向量,所以其每个位置上都有期望,所以期望也是个向量,这都很直观的)

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

插一句,这种问题的一般思考流程:

1、确定单个x出现的概率p(x|u);

2、给定观察序列D,找出p(D|u)的表达式;

3、找到让这个p(D|u)最大的u,一般方法有取ln再求导,令其导数等于0,如果要normalize需要额外处理(比如引入拉格朗日子);

4、知道p(D|u)后,求在N个样本中,出现各种可能的的x的概率,即分布。

按照上述流程

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

找最大的u,对p(D|u)取对数,再引入拉格朗日乘子得到:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

需要让这个式子取最大值,求导令导数为0得到:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

有因为需要normalize,故"模式识别与机器学习"读书笔记——2.2 Multinomial Variables,最后得到:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

再求在N个样本中,出现各种可能的的x的概率,即分布。:(这是典型的概率问题了,单一情况概率*情况数)

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

其中:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

2.2.1 The Dirichlet distribution

这章与前一节真的很像,而且仔细对比一下可以发现一些有趣的东西。

还是老道理,需要为那个概率{u}引入一个prior distribution,而不再是算出来的单一固定的值。

为了共轭性,确定了prior分布的形式是:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

这就解释了为什么会有那些分布,不是凭空想象出来的,而是针对不同的情况,为了满足共轭性而构造出来的!

另外为了保证这些分布的性能,要有参数来调控。a1,a2,...,ak就是参数。

normalize一下,分布变成:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

这个分布称作Dirichlet distribution

当然u不应该只有a确定,还应该与观测数据D有关,利用概率的规则与前面推导出的公式得:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

最终形式:

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

相关文章:

  • 2021-07-12
  • 2022-01-05
  • 2022-12-23
  • 2021-06-17
  • 2021-09-19
  • 2021-12-29
  • 2021-05-22
  • 2021-05-09
猜你喜欢
  • 2022-12-23
  • 2022-02-18
  • 2021-06-21
  • 2021-10-18
  • 2021-07-20
  • 2021-10-01
  • 2021-09-25
相关资源
相似解决方案