【问题标题】:LDA generated topicsLDA 生成的主题
【发布时间】:2015-08-19 16:41:30
【问题描述】:

所以我是在大约两周前开始使用 gensim 和 LDA 的新手,我无法相信这些结果。以下是使用 11 个 1 段文档产生的主题。

主题 #0 (0.500):0.059*island + 0.059*world + 0.057*computers + 0.056*presidential + 0.053*post + 0.047*posts + 0.046*tijuana + 0.045*vice + 0.045*tweets + 0.045*president

2015-06-04 16:22:07,891:信息:主题 #1 (0.500):0.093*computers + 0.064*world + 0.060*posts + 0.053*eurozone + 0.052*months + 0.049*tijuana + 0.048*island + 0.046*raise + 0.044*rates + 0.042*year

这些主题似乎不太正确。事实上,它们看起来几乎毫无意义。我应该如何阅读这些结果?另外,两个主题的主题分布完全相同是否正常?

【问题讨论】:

  • 它们在哪些方面看起来很荒谬?
  • 它们似乎很荒谬,因为每个主题的标记似乎并没有那么相关,我无法为这两个主题中的每一个做出一般的“叙述”

标签: python machine-learning lda topic-modeling gensim


【解决方案1】:

那么,您只有 11 个文档,并且试图从中提取 2 个主题?也许这可能是没有足够数据但尝试迭代更多的情况。

顺便说一句,每次迭代后负对数似然或困惑度会下降吗?

只看结果,我认为如果你迭代更多,你会得到正确的结果,因为该算法已经正确地将语义上接近的事物放在一个主题中。 (帖子、帖子、推文;月、年)

【讨论】:

    猜你喜欢
    • 2015-11-15
    • 1970-01-01
    • 2015-12-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-07-14
    • 2021-09-12
    • 1970-01-01
    相关资源
    最近更新 更多