LDA 生成的主题答案

【问题标题】：LDA generated topicsLDA 生成的主题
【发布时间】：2015-08-19 16:41:30
【问题描述】：

所以我是在大约两周前开始使用 gensim 和 LDA 的新手，我无法相信这些结果。以下是使用 11 个 1 段文档产生的主题。

主题 #0 (0.500)：0.059*island + 0.059*world + 0.057*computers + 0.056*presidential + 0.053*post + 0.047*posts + 0.046*tijuana + 0.045*vice + 0.045*tweets + 0.045*president

2015-06-04 16:22:07,891：信息：主题 #1 (0.500)：0.093*computers + 0.064*world + 0.060*posts + 0.053*eurozone + 0.052*months + 0.049*tijuana + 0.048*island + 0.046*raise + 0.044*rates + 0.042*year

这些主题似乎不太正确。事实上，它们看起来几乎毫无意义。我应该如何阅读这些结果？另外，两个主题的主题分布完全相同是否正常？

【问题讨论】：

它们在哪些方面看起来很荒谬？
它们似乎很荒谬，因为每个主题的标记似乎并没有那么相关，我无法为这两个主题中的每一个做出一般的“叙述”

标签： python machine-learning lda topic-modeling gensim

【解决方案1】：

那么，您只有 11 个文档，并且试图从中提取 2 个主题？也许这可能是没有足够数据但尝试迭代更多的情况。

顺便说一句，每次迭代后负对数似然或困惑度会下降吗？

只看结果，我认为如果你迭代更多，你会得到正确的结果，因为该算法已经正确地将语义上接近的事物放在一个主题中。（帖子、帖子、推文；月、年）

【讨论】：