《Text Mining and Analytics》学习笔记——第三周

上周我们留了一个问题：在使用最大似然法时如何去掉那些并不重要但实际上出现次数又很多的单词呢？

这周就以这个问题开始进一步的学习概率主题模型吧。

一元语言混合模型

怎么能避免那些并不重要但实际上出现次数又很多的单词对结果的影响呢？我们很自然的就会想到将a，the这类单词和其他的单词分开，也就是需要两个或多个分布来表示一个模型。

正如下图所展示的一样，我们用了两个分布来生成一个文本挖掘的文档，选择将 $θ_{B}$ 作为主题背景， $θ_{d}$ 作为主题。
《Text Mining and Analytics》学习笔记——第三周

此时假如文本中有一个单词‘the’，那么这个the的概率应该怎么算呢？
$P (" t h e ") = P (θ_{d}) * P (" t h e " | θ_{d}) + P (θ_{B}) * P (" t h e " | θ_{B}) = 0.5 * 0.000001 + 0.5 * 0.03$

回顾一下，我们改变了原本使用一个词分布的模型，换为使用两个词分布的混合模型，以此来避免a，the这类单词的干扰

混合模型的评价

我们评价这个模型的效果的方法基本类似：

两个主题（主题，主题背景）
主题覆盖率

考虑一下极端情况，其中一个模型的占比为0，即 $P (θ_{B})$ 为0时，也就变回了我们之前的一元语言统计模型。

计算方法

数据：文本d
混合模型：参数 $Λ = (p (w | θ_{B}), p (w | θ_{d}), P (θ_{B}), P (θ_{d}))$
- 两个一元模型： $θ_{B}$ （主题背景）， $θ_{d}$ （主题）
- 混合的权重（模型选择）： $P (θ_{B}) + P (θ_{d}) = 1$
最大似然法（Likelihood）：
$P (d | Λ) = \prod_{i = 1}^{| d |} P (x_{i} | Λ) = \prod_{i = 1}^{| d |} [p (θ_{d}) p (x_{i} | θ_{d}) + p (θ_{B}) p (x_{i} | θ_{B}]$
最大似然法的评估
$Λ^{*} = a r g m a x p (d | Λ)$
$s . t \sum_{i = 1}^{M} p (w_{i} | θ_{d}) + \sum_{i = 1}^{M} p (w_{i} | θ_{B}) = 1$

参数估计

我们要怎么计算混合模型的参数呢？（用最大似然法找最大的参数）

思路：

我们先设背景分布 $θ_{B}$ 已知，现在主要知道 $θ_{d}$ 后，就可以知道混合模型的参数值了。

如下一个文本，只有两个单词“text”，“the”，设背景中词的分布为the占 0.9 的比例，text占 0.1 的比例，它们的似然值也如下图中所示：
《Text Mining and Analytics》学习笔记——第三周

现在只要求使得 $p (d | Λ)$ 最大的参数就可以了，实际上就是式子取得最大值的时候.

想想数学老师也说过，两个实数和一定时（text的概率和the的概率之和为1），两个数相等时乘积最大。

所以这样就可以计算“the”在 $θ_{d}$ 中占比为0.1，“text”在 $θ_{d}$ 中占比为0.9。

特征

第一个特征

有上面的参数估计的例子中我们也不难看出，如果一个词在背景模型中的概率大，那么它在主题模型中的概率就小

这也是混合模型的第一个特征。

第二个特征

想想要是文档中还是只有the和text两种单词，但是the出现的次数增多，那么在 $θ_{d}$ 中the的概率会怎么变化

像下图这种情况：

《Text Mining and Analytics》学习笔记——第三周

现在在主题的词分布中单词“the”的概率是大于0.1还是小于0.1呢？

答案是现在主题词分布 $θ_{d}$ 的“the”的概率是大于0.1的，这也是混合模型的第二个特征：文档中出现次数高的单词会在主题词分布 $θ_{d}$ 中有较高的概率

或许你会问：如果我还想要单词“the”不增加那么多，或者就算“the”出现很多次，我还想要“the”出现的概率和“text”的出现的概率差不多是1：9应该怎么办呢？

答案是增加 $θ_{B}$ 的权重，直观的理解一下就是 $θ_{B}$ 像是一个斥力，来控制像“the”这类的单词不要太跑偏。

混合模型小结

一元混合模型就是有两个词分布组成的模型，一个背景，一个主题
计算的方法就是用最大似然法使得参数最大，这里的文本数据比较简单，下一节将介绍使用最大期望方法求参数
混合模型有两个特征
- 1.背景中出现概率高的词在主题中出现的概率小
- 2.如果一个词在文本中出现概率高，那么在主题中出现的概率也高。背景词分布相当于一个斥力，增加其权重相当于增加斥力，使得主题模型往其相反的分布靠近。