【发布时间】:2015-08-19 16:41:30
【问题描述】:
所以我是在大约两周前开始使用 gensim 和 LDA 的新手,我无法相信这些结果。以下是使用 11 个 1 段文档产生的主题。
主题 #0 (0.500):0.059*island + 0.059*world + 0.057*computers + 0.056*presidential + 0.053*post + 0.047*posts + 0.046*tijuana + 0.045*vice + 0.045*tweets + 0.045*president
2015-06-04 16:22:07,891:信息:主题 #1 (0.500):0.093*computers + 0.064*world + 0.060*posts + 0.053*eurozone + 0.052*months + 0.049*tijuana + 0.048*island + 0.046*raise + 0.044*rates + 0.042*year
这些主题似乎不太正确。事实上,它们看起来几乎毫无意义。我应该如何阅读这些结果?另外,两个主题的主题分布完全相同是否正常?
【问题讨论】:
-
它们在哪些方面看起来很荒谬?
-
它们似乎很荒谬,因为每个主题的标记似乎并没有那么相关,我无法为这两个主题中的每一个做出一般的“叙述”
标签: python machine-learning lda topic-modeling gensim