【发布时间】:2019-03-24 12:25:56
【问题描述】:
我正在使用 gensim LDA 进行主题建模。 我需要获得语料库的主题分布,而不是单个文档。 假设我有 1000 个文档,它们属于 10 个不同的类别(假设每个类别有 100 个文档)。 在对 LDA 模型总共 1000 个文档进行训练后,我想看看每个类别的主要主题是什么。下图说明了我的数据集和目标。
到目前为止,我可以想到两种方法,但我不确定任何一种方法是否合理,我很高兴知道是否有更好的方法。
在第一种方法中,我可以将每个类别的文档连接成一个大文档。所以只有 10 个大文档,因此对于每个文档,我将能够检索其主题分布。
另一种方法可能是获取所有文档的主题分布,而不连接文档。因此,对于每个类别,我们将有 100 个文档主题分布。为了得到每个类别的主导主题,我可以对每个主题的概率求和,并且只得到几个得分最高的主题。 我不确定这些方法是否正确,您有什么建议?
【问题讨论】:
标签: nlp data-science gensim lda topic-modeling