【发布时间】:2014-05-26 19:10:07
【问题描述】:
我知道在为 gensim 训练了 lda 模型之后,我们可以通过以下方式获得一个看不见的文档的主题:
lda = LdaModel(corpus, num_topics=10)
doc_lda = lda[doc_bow]
但是那些已经用于训练的文档呢?我的意思是有没有一种方法可以获取语料库中用于训练的文档的主题,而不会将其视为新文档?
【问题讨论】:
我知道在为 gensim 训练了 lda 模型之后,我们可以通过以下方式获得一个看不见的文档的主题:
lda = LdaModel(corpus, num_topics=10)
doc_lda = lda[doc_bow]
但是那些已经用于训练的文档呢?我的意思是有没有一种方法可以获取语料库中用于训练的文档的主题,而不会将其视为新文档?
【问题讨论】:
没有。
来自单个文档的信息被提炼到模型中,然后被遗忘。
不保留每个文档的信息(更一般地说:不保留需要 O(#docs) 内存的信息)。
【讨论】: