语料库的整体主题分布，而不是单个文档答案

【问题标题】：Overall topic distribution of a corpus, not individual documents语料库的整体主题分布，而不是单个文档
【发布时间】：2019-03-24 12:25:56
【问题描述】：

我正在使用 gensim LDA 进行主题建模。我需要获得语料库的主题分布，而不是单个文档。假设我有 1000 个文档，它们属于 10 个不同的类别（假设每个类别有 100 个文档）。在对 LDA 模型总共 1000 个文档进行训练后，我想看看每个类别的主要主题是什么。下图说明了我的数据集和目标。

到目前为止，我可以想到两种方法，但我不确定任何一种方法是否合理，我很高兴知道是否有更好的方法。

在第一种方法中，我可以将每个类别的文档连接成一个大文档。所以只有 10 个大文档，因此对于每个文档，我将能够检索其主题分布。

另一种方法可能是获取所有文档的主题分布，而不连接文档。因此，对于每个类别，我们将有 100 个文档主题分布。为了得到每个类别的主导主题，我可以对每个主题的概率求和，并且只得到几个得分最高的主题。我不确定这些方法是否正确，您有什么建议？

【问题讨论】：

标签： nlp data-science gensim lda topic-modeling

【解决方案1】：

在方法 1) 中，您正在连接文档（可能长度不同），并获取一个大文档的主题。因此，较小文档的重要性可能会降低。

在方法 2) 中，所有长度的文档的重要性几乎相同（取决于您如何组合主题分布）

您需要采用的方法取决于您的用例。

【讨论】：

感谢您的回复@kampta，您的两点都是正确的。你知道有没有其他方法可以解决这样的问题。我遇到了 gensim (radimrehurek.com/gensim/models/…) 的 top_topic 方法，它使语料库具有连贯性，它可能达到目的，但仍然不确定是否有更好的方法！！！