如何用 LDA/pLSA 推断新文档的主题分布？答案

【问题标题】：How to inference the topic distribution of a new document with LDA/pLSA?如何用 LDA/pLSA 推断新文档的主题分布？
【发布时间】：2016-02-03 09:40:47
【问题描述】：

在使用 pLSA/LDA 等主题模型时，我有一个问题：在我们得到每个主题中每个单词的分布后，如何推断新文档的主题分布？我在使用 LDA 时尝试过“折叠式”吉布斯采样，但是当看不见的文档很短时，这种方法不起作用，因为主题随机分配给文档中包含的每个单词。例如，考虑一个有两个主题的模型，有一个标记 w，它 p(w|z1)=0.09 和 p(w|z2)=0.01。那么一个只包含一个单词 w 的文档，它的 p(z|d) 主要是 (1.0, 0)，有时是 (0, 1.0)，因为采样过程会以某种方式将 w 的主题分配给 topic2。我们该如何处理这种情况？

【问题讨论】：

标签： lda topic-modeling

【解决方案1】：

我不确定您所说的“随机性”是什么意思，因为在应用 Gibbs 抽样之后，主题不应该是随机的，它们应该是有意义的。也许您执行算法的次数少于必要的次数？

此外，如果您只有两个主题，则概率之和应为 1。如果对于给定的标记 w，z1 和 z2 的概率分别为 0.9 和 0.1，那么这个词 90% 的时间将被归类到 z1 和 10% 的时间归类到 z2 似乎是合乎逻辑的。虽然只有 w 的文档是一个极端情况，但我相信上面的情况仍然成立。

我不完全理解你的问题，但是还有其他近似 LDA 的方法，例如变分算法。

This 可能会帮助您对新实例进行推理。

【讨论】：