【问题标题】:Overall topic distribution of a corpus, not individual documents语料库的整体主题分布,而不是单个文档
【发布时间】:2019-03-24 12:25:56
【问题描述】:

我正在使用 gensim LDA 进行主题建模。 我需要获得语料库的主题分布,而不是单个文档。 假设我有 1000 个文档,它们属于 10 个不同的类别(假设每个类别有 100 个文档)。 在对 LDA 模型总共 1000 个文档进行训练后,我想看看每个类别的主要主题是什么。下图说明了我的数据集和目标。

到目前为止,我可以想到两种方法,但我不确定任何一种方法是否合理,我很高兴知道是否有更好的方法。

在第一种方法中,我可以将每个类别的文档连接成一个大文档。所以只有 10 个大文档,因此对于每个文档,我将能够检索其主题分布。

另一种方法可能是获取所有文档的主题分布,而不连接文档。因此,对于每个类别,我们将有 100 个文档主题分布。为了得到每个类别的主导主题,我可以对每个主题的概率求和,并且只得到几个得分最高的主题。 我不确定这些方法是否正确,您有什么建议?

【问题讨论】:

    标签: nlp data-science gensim lda topic-modeling


    【解决方案1】:

    在方法 1) 中,您正在连接文档(可能长度不同),并获取一个大文档的主题。因此,较小文档的重要性可能会降低。

    在方法 2) 中,所有长度的文档的重要性几乎相同(取决于您如何组合主题分布)

    您需要采用的方法取决于您的用例。

    【讨论】:

    • 感谢您的回复@kampta,您的两点都是正确的。你知道有没有其他方法可以解决这样的问题。我遇到了 gensim (radimrehurek.com/gensim/models/…) 的 top_topic 方法,它使语料库具有连贯性,它可能达到目的,但仍然不确定是否有更好的方法!!!
    猜你喜欢
    • 2016-09-24
    • 1970-01-01
    • 1970-01-01
    • 2015-11-21
    • 1970-01-01
    • 2015-06-27
    • 2015-12-12
    • 1970-01-01
    • 2015-11-27
    相关资源
    最近更新 更多