【问题标题】:How to inference the topic distribution of a new document with LDA/pLSA?如何用 LDA/pLSA 推断新文档的主题分布?
【发布时间】:2016-02-03 09:40:47
【问题描述】:

在使用 pLSA/LDA 等主题模型时,我有一个问题:在我们得到每个主题中每个单词的分布后,如何推断新文档的主题分布?我在使用 LDA 时尝试过“折叠式”吉布斯采样,但是当看不见的文档很短时,这种方法不起作用,因为主题随机分配给文档中包含的每个单词。例如,考虑一个有两个主题的模型,有一个标记 w,它 p(w|z1)=0.09 和 p(w|z2)=0.01。那么一个只包含一个单词 w 的文档,它的 p(z|d) 主要是 (1.0, 0),有时是 (0, 1.0),因为采样过程会以某种方式将 w 的主题分配给 topic2。我们该如何处理这种情况?

【问题讨论】:

    标签: lda topic-modeling


    【解决方案1】:

    我不确定您所说的“随机性”是什么意思,因为在应用 Gibbs 抽样之后,主题不应该是随机的,它们应该是有意义的。也许您执行算法的次数少于必要的次数?

    此外,如果您只有两个主题,则概率之和应为 1。 如果对于给定的标记 w,z1 和 z2 的概率分别为 0.9 和 0.1,那么这个词 90% 的时间将被归类到 z1 和 10% 的时间归类到 z2 似乎是合乎逻辑的。虽然只有 w 的文档是一个极端情况,但我相信上面的情况仍然成立。

    我不完全理解你的问题,但是还有其他近似 LDA 的方法,例如变分算法。

    This 可能会帮助您对新实例进行推理。

    【讨论】:

      猜你喜欢
      • 2017-02-02
      • 1970-01-01
      • 2016-09-03
      • 2014-07-02
      • 2017-12-31
      • 1970-01-01
      • 2020-12-25
      • 1970-01-01
      相关资源
      最近更新 更多