【发布时间】:2016-02-03 09:40:47
【问题描述】:
在使用 pLSA/LDA 等主题模型时,我有一个问题:在我们得到每个主题中每个单词的分布后,如何推断新文档的主题分布?我在使用 LDA 时尝试过“折叠式”吉布斯采样,但是当看不见的文档很短时,这种方法不起作用,因为主题随机分配给文档中包含的每个单词。例如,考虑一个有两个主题的模型,有一个标记 w,它 p(w|z1)=0.09 和 p(w|z2)=0.01。那么一个只包含一个单词 w 的文档,它的 p(z|d) 主要是 (1.0, 0),有时是 (0, 1.0),因为采样过程会以某种方式将 w 的主题分配给 topic2。我们该如何处理这种情况?
【问题讨论】:
标签: lda topic-modeling